深層強化学習は、視覚的なナビゲーションや操作など、シミュレーションにおける豊富なロボット タスクで有望な結果を示しています。従来の研究では、一般的に、割り当てられたタスクをできるだけ迅速に解決する具現化されたエージェントを構築することを目的としていましたが、相互作用中のオブジェクトとの衝突によって引き起こされる問題はほとんど無視されていました。この優先順位の欠如は理解できます。仮想オブジェクトを破壊することには固有のコストはありません。その結果、「よく訓練された」エージェントは、主要な目標を達成する前にオブジェクトと頻繁に衝突します。これは、現実の世界では破滅的な行動です。この論文では、オブジェクトとの不必要な衝突 (外乱) を回避しながら、ManipulaTHOR 環境で視覚的なモバイル操作のタスクを完了するエージェントのトレーニングの問題を研究します。報酬関数のペナルティ項として外乱回避を定式化しますが、そのようなペナルティ付き報酬を使用して直接トレーニングすると、エージェントが貧弱な局所最適値から逃れることができなくなることがよくあります。代わりに、エージェントが最初にペナルティなしで基本的な能力を自由に探索して構築することを許可された後、エージェントの行動を改善するために妨害ペナルティが導入される2段階のトレーニングカリキュラムを提案します。テストシーンの結果は、私たちのカリキュラムがこれらの貧弱な局所的最適値を回避するだけでなく、最先端のベースラインと比較して、妨害なしで成功率の 10% の絶対的な向上につながることを示しています.さらに、私たちのカリキュラムは、衝突回避を制約としてキャストする安全な RL アルゴリズムよりもはるかにパフォーマンスが優れています。最後に、学習を加速する新しい外乱予測補助タスクを提案します。
Deep reinforcement learning has shown promising results on an abundance of robotic tasks in simulation, including visual navigation and manipulation. Prior work generally aims to build embodied agents that solve their assigned tasks as quickly as possible, while largely ignoring the problems caused by collision with objects during interaction. This lack of prioritization is understandable: there is no inherent cost in breaking virtual objects. As a result, "well-trained" agents frequently collide with objects before achieving their primary goals, a behavior that would be catastrophic in the real world. In this paper, we study the problem of training agents to complete the task of visual mobile manipulation in the ManipulaTHOR environment while avoiding unnecessary collision (disturbance) with objects. We formulate disturbance avoidance as a penalty term in the reward function, but find that directly training with such penalized rewards often results in agents being unable to escape poor local optima. Instead, we propose a two-stage training curriculum where an agent is first allowed to freely explore and build basic competencies without penalization, after which a disturbance penalty is introduced to refine the agent's behavior. Results on testing scenes show that our curriculum not only avoids these poor local optima, but also leads to 10% absolute gains in success rate without disturbance, compared to our state-of-the-art baselines. Moreover, our curriculum is significantly more performant than a safe RL algorithm that casts collision avoidance as a constraint. Finally, we propose a novel disturbance-prediction auxiliary task that accelerates learning.