arXiv reaDer
残留行動予測による視覚的模倣学習における模倣問題の解決
Resolving Copycat Problems in Visual Imitation Learning via Residual Action Prediction
模倣学習は、知的エージェントが専門家のデモンストレーションから複雑なスキルを習得できるようにする、広く使用されているポリシー学習方法です。最新の観測には十分な情報が含まれていない可能性があるため、模倣学習アルゴリズムへの入力は通常、現在の観測と過去の観測の両方で構成されます。これは特に、単一の画像にシーンの1つのビューしか含まれておらず、モーション情報の不足とオブジェクトのオクルージョンに悩まされている画像観察の場合に当てはまります。理論的には、模倣学習エージェントに複数の観測値を提供すると、パフォーマンスが向上します。しかし、驚くべきことに、観察履歴からの模倣は、最新の観察からの模倣よりもパフォーマンスが悪い場合があります。本稿では、この現象をニューラルネットワークの観点から情報の流れから説明します。また、設計上この問題に悩まされない、新しい模倣学習神経回路網アーキテクチャを提案します。さらに、私たちの方法は、高次元の画像観察に対応します。最後に、広く使用されている2つのシミュレーターCARLAとMuJoCoでアプローチのベンチマークを行い、コピーキャットの問題を正常に軽減し、既存のソリューションを上回ります。
Imitation learning is a widely used policy learning method that enables intelligent agents to acquire complex skills from expert demonstrations. The input to the imitation learning algorithm is usually composed of both the current observation and historical observations since the most recent observation might not contain enough information. This is especially the case with image observations, where a single image only includes one view of the scene, and it suffers from a lack of motion information and object occlusions. In theory, providing multiple observations to the imitation learning agent will lead to better performance. However, surprisingly people find that sometimes imitation from observation histories performs worse than imitation from the most recent observation. In this paper, we explain this phenomenon from the information flow within the neural network perspective. We also propose a novel imitation learning neural network architecture that does not suffer from this issue by design. Furthermore, our method scales to high-dimensional image observations. Finally, we benchmark our approach on two widely used simulators, CARLA and MuJoCo, and it successfully alleviates the copycat problem and surpasses the existing solutions.
updated: Wed Jul 20 2022 07:15:32 GMT+0000 (UTC)
published: Wed Jul 20 2022 07:15:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト