マシンは、一人称視点(FPV)空中ナビゲーションなどのオープンワールドの知覚制御タスクを堅牢に解決するための長い道のりです。エンドツーエンドの機械学習、特に模倣学習と強化学習の最近の進歩は有望であるように見えますが、それらは収集が困難なラベル付きの実世界のデータが大量に必要であることに制約されています。一方、シミュレートされたデータは簡単に生成できますが、通常、さまざまな現実のシナリオで安全な動作をレンダリングしません。この研究では、純粋にシミュレートされたデータで訓練できる実世界展開のための堅牢な視覚運動ポリシーを学習するための新しい方法を提案します。監視ありと監視なしの環境データを組み合わせた豊富な状態表現を開発します。私たちのアプローチは、独立したモダリティが生のカメラデータに対応し、ドローンレースの場合のドローンに対するゲートの相対的なポーズなど、タスクに関連するシステム状態のクロスモーダルパースペクティブを取ります。両方のデータモダリティを、変分オートエンコーダーを介して共同低次元埋め込みを学習する新しいファクターアーキテクチャにフィードします。このコンパクトな表現は、制御ポリシーに送られます。制御ポリシーは、シミュレーターで専門家の軌跡を使用して模倣学習を使用してトレーニングしました。提案された表現で学んだ豊かな潜在空間を分析し、クロスモーダルアーキテクチャを使用すると、エンドツーエンドの学習または純粋に教師なしの特徴抽出と比較して、制御ポリシーのパフォーマンスが大幅に向上することを示します。また、さまざまなトラック構成と環境条件でのゲートを介したドローンナビゲーションの実際の結果を示します。完全にオンボードで実行される提案された方法は、シミュレーションと現実に渡って学習した表現とポリシーを正常に一般化でき、ベースラインアプローチを大幅に上回ります。補足ビデオ:https://youtu.be/VKc3A5HlUU8
Machines are a long way from robustly solving open-world perception-control tasks, such as first-person view (FPV) aerial navigation. While recent advances in end-to-end Machine Learning, especially Imitation and Reinforcement Learning appear promising, they are constrained by the need of large amounts of difficult-to-collect labeled real-world data. Simulated data, on the other hand, is easy to generate, but generally does not render safe behaviors in diverse real-life scenarios. In this work we propose a novel method for learning robust visuomotor policies for real-world deployment which can be trained purely with simulated data. We develop rich state representations that combine supervised and unsupervised environment data. Our approach takes a cross-modal perspective, where separate modalities correspond to the raw camera data and the system states relevant to the task, such as the relative pose of gates to the drone in the case of drone racing. We feed both data modalities into a novel factored architecture, which learns a joint low-dimensional embedding via Variational Auto Encoders. This compact representation is then fed into a control policy, which we trained using imitation learning with expert trajectories in a simulator. We analyze the rich latent spaces learned with our proposed representations, and show that the use of our cross-modal architecture significantly improves control policy performance as compared to end-to-end learning or purely unsupervised feature extractors. We also present real-world results for drone navigation through gates in different track configurations and environmental conditions. Our proposed method, which runs fully onboard, can successfully generalize the learned representations and policies across simulation and reality, significantly outperforming baseline approaches. Supplementary video: https://youtu.be/VKc3A5HlUU8