ラベルのない生のRGBビデオストリームから深度とカメラのエゴモーションを学習することは、強力な幾何学的な手がかりからの自己監視を通じて刺激的な進歩を遂げています。外観だけでなくシーンジオメトリも活用するために、正確な視覚走行距離測定のためにRGBと推定深度情報を使用する、新しい自己監視型の2ストリームネットワークを提案します。さらに、ポーズネットワークを効果的に正則化してより強力な一般化パフォーマンスを可能にする、エゴモーション学習用のスパース性を誘発するデータ増大ポリシーを導入します。その結果、私たちは提案された2ストリームのポーズネットワークはキティのオドメトリベンチマークで学習ベースの方法の中で最先端の成果を達成し、特に規模での自己監督に適していることを示しています。 100万フレームの大規模な都市運転データセットでの実験では、提案されたアーキテクチャのパフォーマンスが実際により多くのデータで漸進的にスケーリングすることを示しています。
Learning depth and camera ego-motion from raw unlabeled RGB video streams is seeing exciting progress through self-supervision from strong geometric cues. To leverage not only appearance but also scene geometry, we propose a novel self-supervised two-stream network using RGB and inferred depth information for accurate visual odometry. In addition, we introduce a sparsity-inducing data augmentation policy for ego-motion learning that effectively regularizes the pose network to enable stronger generalization performance. As a result, we show that our proposed two-stream pose network achieves state-of-the-art results among learning-based methods on the KITTI odometry benchmark, and is especially suited for self-supervision at scale. Our experiments on a large-scale urban driving dataset of 1 million frames indicate that the performance of our proposed architecture does indeed scale progressively with more data.