arXiv reaDer
Cross-View Policy Learning for Street Navigation
  なじみのない環境での視覚的観察からナビゲートする機能は、インテリジェントエージェントのコアコンポーネントであり、Deep Reinforcement Learning(RL)の継続的な課題です。ストリートビューは、そのようなRLエージェントにとって賢明なテストベッドになる可能性があります。 StreetLearnと呼ばれるインタラクティブな環境になり、ナビゲーションの研究に使用されました。ただし、目標駆動型のストリートナビゲーションエージェントは、これまでのところ、大規模な再トレーニングなしで目に見えないエリアに移動することはできず、シミュレーションに依存することはスケーラブルなソリューションではありません。航空写真は簡単かつグローバルにアクセスできるため、代わりに地上および航空写真でマルチモーダルポリシーをトレーニングし、航空写真を利用して地上ビューポリシーを都市の見えない(ターゲット)部分に転送することを提案します。私たちの核となるアイデアは、地上ビューと空中ビューを組み合わせて、ビュー間で転送可能な共同ポリシーを学習することです。これを実現するには、両方のビューに対して同様の埋め込みスペースを学習し、ビュー全体にポリシーを抽出し、視覚的なモダリティをドロップアウトします。転送学習のパラダイムをさらに3段階に再編成します。1)複数の都市地域でエージェントが最初にトレーニングされる場合のクロスモーダルトレーニング、2)開催地に適応される場合の新しいエリアへの空撮のみの適応、簡単に取得できる航空写真のみを使用したアウトリージョン、および3)航空写真なしで、見えない地上ビューのナビゲーションタスクでエージェントをテストする場合の地上ビューのみの転送。実験結果は、提案されたクロスビューポリシー学習により、エージェントのより一般化が可能になり、見えない環境へのより効果的な転送が可能になることを示唆しています。
The ability to navigate from visual observations in unfamiliar environments is a core component of intelligent agents and an ongoing challenge for Deep Reinforcement Learning (RL). Street View can be a sensible testbed for such RL agents, because it provides real-world photographic imagery at ground level, with diverse street appearances; it has been made into an interactive environment called StreetLearn and used for research on navigation. However, goal-driven street navigation agents have not so far been able to transfer to unseen areas without extensive retraining, and relying on simulation is not a scalable solution. Since aerial images are easily and globally accessible, we propose instead to train a multi-modal policy on ground and aerial views, then transfer the ground view policy to unseen (target) parts of the city by utilizing aerial view observations. Our core idea is to pair the ground view with an aerial view and to learn a joint policy that is transferable across views. We achieve this by learning a similar embedding space for both views, distilling the policy across views and dropping out visual modalities. We further reformulate the transfer learning paradigm into three stages: 1) cross-modal training, when the agent is initially trained on multiple city regions, 2) aerial view-only adaptation to a new area, when the agent is adapted to a held-out region using only the easily obtainable aerial view, and 3) ground view-only transfer, when the agent is tested on navigation tasks on unseen ground views, without aerial imagery. Experimental results suggest that the proposed cross-view policy learning enables better generalization of the agent and allows for more effective transfer to unseen environments.
updated: Sun Sep 22 2019 07:33:44 GMT+0000 (UTC)
published: Thu Jun 13 2019 21:07:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト