arXiv reaDer
VRL3: 視覚的な深層強化学習のためのデータ駆動型フレームワーク
VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning
VRL3 は、困難な視覚的深層強化学習 (DRL) タスクを解決するためのシンプルな設計の強力なデータ駆動型フレームワークです。データ駆動型アプローチを採用する上での多くの主要な障害を分析し、データ駆動型ビジュアル DRL に関する一連の設計原則、新しい発見、および重要な洞察を提示します。私たちのフレームワークには 3 つの段階があります。段階 1 では、非 RL データセット (ImageNet など) を活用して、タスクに依存しない視覚的表現を学習します。ステージ 2 では、オフラインの RL データ (限られた数の専門家のデモなど) を使用して、タスクにとらわれない表現をより強力なタスク固有の表現に変換します。ステージ 3 では、オンライン RL を使用してエージェントを微調整します。以前の SOTA と比較して、まばらな報酬とリアルな視覚入力を伴う一連の挑戦的な手の操作タスクで、VRL3 は平均 780% 優れたサンプル効率を達成します。最も困難なタスクでは、VRL3 はサンプル効率が 1220% 向上し (幅の広いエンコーダーを使用すると 2440%)、わずか 10% の計算でタスクを解決します。これらの重要な結果は、データ駆動型の深層強化学習の大きな可能性を明確に示しています。
We propose VRL3, a powerful data-driven framework with a simple design for solving challenging visual deep reinforcement learning (DRL) tasks. We analyze a number of major obstacles in taking a data-driven approach, and present a suite of design principles, novel findings, and critical insights about data-driven visual DRL. Our framework has three stages: in stage 1, we leverage non-RL datasets (e.g. ImageNet) to learn task-agnostic visual representations; in stage 2, we use offline RL data (e.g. a limited number of expert demonstrations) to convert the task-agnostic representations into more powerful task-specific representations; in stage 3, we fine-tune the agent with online RL. On a set of challenging hand manipulation tasks with sparse reward and realistic visual inputs, compared to the previous SOTA, VRL3 achieves an average of 780% better sample efficiency. And on the hardest task, VRL3 is 1220% more sample efficient (2440% when using a wider encoder) and solves the task with only 10% of the computation. These significant results clearly demonstrate the great potential of data-driven deep reinforcement learning.
updated: Fri Mar 31 2023 06:41:29 GMT+0000 (UTC)
published: Thu Feb 17 2022 09:51:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト