arXiv reaDer
仮想世界からの学習によるスケール一貫性のある単眼視覚オドメトリに向けて
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World
単眼視覚オドメトリ(VO)は、費用対効果の高いカメラ画像からリアルタイムの車両運動を提供することにより、広範な研究の注目を集めています。ただし、最先端の最適化ベースの単眼VO法は、長期予測のスケールの不一致の問題に悩まされています。最近、トレーニングデータセットのステレオシーケンスまたはグラウンドトゥルースモーションを活用することでこの問題に対処するために、ディープラーニングが導入されました。ただし、データ収集には追加料金がかかり、そのようなトレーニングデータはすべてのデータセットで利用できるとは限りません。この作業では、VRVOを提案します。これは、最新のシミュレーション環境から簡単に取得できる仮想データから絶対尺度を取得するための新しいフレームワークですが、実際のドメインでは、トレーニングフェーズまたは推論フェーズのいずれでもステレオデータまたはグラウンドトゥルースデータは必要ありません。 。具体的には、まず、単眼の実像とステレオ仮想データの両方を使用して、スケールを意識した視差ネットワークをトレーニングします。仮想ドメインと現実ドメインのギャップは、敵対的なトレーニング戦略を使用して、両方のドメインからの画像を共有機能空間にマッピングすることで埋められます。結果として生じるスケール一貫性のある視差は、長い軌道にわたってスケール一貫性を保証する仮想ステレオ対物レンズを構築することにより、直接VOシステムと統合されます。さらに、個別の最適化バックエンドと学習プロセスによって引き起こされる次善の問題に対処するために、学習と最適化の間の双方向の情報フローを可能にする相互強化パイプラインをさらに提案します。これにより、相互の堅牢性と精度が向上します。 KITTIおよびvKITTI2データセットに対するフレームワークの有効性を示します。
Monocular visual odometry (VO) has attracted extensive research attention by providing real-time vehicle motion from cost-effective camera images. However, state-of-the-art optimization-based monocular VO methods suffer from the scale inconsistency problem for long-term predictions. Deep learning has recently been introduced to address this issue by leveraging stereo sequences or ground-truth motions in the training dataset. However, it comes at an additional cost for data collection, and such training data may not be available in all datasets. In this work, we propose VRVO, a novel framework for retrieving the absolute scale from virtual data that can be easily obtained from modern simulation environments, whereas in the real domain no stereo or ground-truth data are required in either the training or inference phases. Specifically, we first train a scale-aware disparity network using both monocular real images and stereo virtual data. The virtual-to-real domain gap is bridged by using an adversarial training strategy to map images from both domains into a shared feature space. The resulting scale-consistent disparities are then integrated with a direct VO system by constructing a virtual stereo objective that ensures the scale consistency over long trajectories. Additionally, to address the suboptimality issue caused by the separate optimization backend and the learning process, we further propose a mutual reinforcement pipeline that allows bidirectional information flow between learning and optimization, which boosts the robustness and accuracy of each other. We demonstrate the effectiveness of our framework on the KITTI and vKITTI2 datasets.
updated: Fri Mar 11 2022 01:51:54 GMT+0000 (UTC)
published: Fri Mar 11 2022 01:51:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト