arXiv reaDer
「良いロボット!」:SimからReal Transferを使用したマルチステップ視覚タスクの効率的な強化学習
"Good Robot!": Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer
現在の強化学習(RL)アルゴリズムは、行き止まりの探索に時間を浪費する可能性があり、タスクの進行が簡単に逆転する可能性がある、長期的なタスクに苦労しています。私たちはSPOTフレームワークを開発します。SPOTフレームワークは、アクションセーフティゾーン内を探索し、探索せずに危険な領域について学習し、以前の進歩を逆転させて驚くべき効率で学習する経験を優先します。 SPOTフレームワークは、さまざまなタスクのシミュレートされたトライアルを正常に完了し、4つのキューブを積み重ねるときのベースライントライアルの成功率を13%から100%、4キューブの行を作成するときは13%から99%、84%から95%に改善します。敵対的なパターンで配置されたおもちゃをクリアするとき。試行ごとのアクションに関する効率は通常30%以上向上しますが、トレーニングはタスクに応じて1〜2万アクションしかかかりません。さらに、実際の転送への直接シミュレーションを示します。追加の実際の微調整を行わずにシミュレーショントレーニング済みモデルを実際のロボットに直接ロードすることにより、61%の効率で100%の試行で実際のスタックを作成し、59%の効率で100%の試行で実際の行を作成できます。私たちの知る限り、これは強化学習の最初のインスタンスであり、進行の逆転を考慮したブロックスタッキングや行作成などの長期マルチステップタスクに適用された、シミュレーションから実際の転送に成功しました。コードはで入手できます。
Current Reinforcement Learning (RL) algorithms struggle with long-horizon tasks where time can be wasted exploring dead ends and task progress may be easily reversed. We develop the SPOT framework, which explores within action safety zones, learns about unsafe regions without exploring them, and prioritizes experiences that reverse earlier progress to learn with remarkable efficiency. The SPOT framework successfully completes simulated trials of a variety of tasks, improving a baseline trial success rate from 13% to 100% when stacking 4 cubes, from 13% to 99% when creating rows of 4 cubes, and from 84% to 95% when clearing toys arranged in adversarial patterns. Efficiency with respect to actions per trial typically improves by 30% or more, while training takes just 1-20k actions, depending on the task. Furthermore, we demonstrate direct sim to real transfer. We are able to create real stacks in 100% of trials with 61% efficiency and real rows in 100% of trials with 59% efficiency by directly loading the simulation-trained model on the real robot with no additional real-world fine-tuning. To our knowledge, this is the first instance of reinforcement learning with successful sim to real transfer applied to long term multi-step tasks such as block-stacking and row-making with consideration of progress reversal. Code is available at .
updated: Sat Aug 15 2020 18:10:40 GMT+0000 (UTC)
published: Wed Sep 25 2019 19:50:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト