arXiv reaDer
HRL4IN: Hierarchical Reinforcement Learning for Interactive Navigation with Mobile Manipulators
  人間環境における最も一般的なナビゲーションタスクには、補助アームの相互作用が必要です。ドアを開け、ボタンを押し、障害物を押しのけます。インタラクティブナビゲーションと呼ばれるこのタイプのナビゲーションタスクでは、モバイルマニピュレーター、つまり操作機能を備えたモバイルベースを使用する必要があります。インタラクティブナビゲーションタスクは通常、長い期間であり、純粋なナビゲーション、純粋な操作、およびそれらの組み合わせの異種フェーズで構成されます。実施形態の誤った部分を使用することは非効率的であり、進歩を妨げる。インタラクティブナビゲーションタスク用の新しい階層RLアーキテクチャであるHRL4INを提案します。 HRL4INは、サブゴールに向けて時間的に延長されたコミットメントのおかげで、長期的なタスクのためにフラットRLよりもHRLの探査の利点を活用します。他のHRLソリューションとは異なり、HRL4INは、タスクのさまざまなフェーズでさまざまなスペースにサブゴールを作成することで、Interactive Navigationタスクの異種の性質を処理します。さらに、HRL4INは、各フェーズに使用する実施形態の異なる部分を選択し、エネルギー効率を改善します。 2つの環境(2Dグリッドワールド環境と物理シミュレーションを備えた3D環境)のインタラクティブナビゲーションで、フラットPPOと最新のHRLアルゴリズムであるHACに対してHRL4INを評価します。 HRL4INは、タスクのパフォーマンスとエネルギー効率の点でベースラインを大幅に上回ることを示しています。詳細については、をご覧ください。
Most common navigation tasks in human environments require auxiliary arm interactions, e.g. opening doors, pressing buttons and pushing obstacles away. This type of navigation tasks, which we call Interactive Navigation, requires the use of mobile manipulators: mobile bases with manipulation capabilities. Interactive Navigation tasks are usually long-horizon and composed of heterogeneous phases of pure navigation, pure manipulation, and their combination. Using the wrong part of the embodiment is inefficient and hinders progress. We propose HRL4IN, a novel Hierarchical RL architecture for Interactive Navigation tasks. HRL4IN exploits the exploration benefits of HRL over flat RL for long-horizon tasks thanks to temporally extended commitments towards subgoals. Different from other HRL solutions, HRL4IN handles the heterogeneous nature of the Interactive Navigation task by creating subgoals in different spaces in different phases of the task. Moreover, HRL4IN selects different parts of the embodiment to use for each phase, improving energy efficiency. We evaluate HRL4IN against flat PPO and HAC, a state-of-the-art HRL algorithm, on Interactive Navigation in two environments - a 2D grid-world environment and a 3D environment with physics simulation. We show that HRL4IN significantly outperforms its baselines in terms of task performance and energy efficiency. More information is available at
updated: Thu Oct 24 2019 21:34:29 GMT+0000 (UTC)
published: Thu Oct 24 2019 21:34:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト