近年、多くの方法が、トレーニング信号として自己監視のみを使用して、画像のシーケンスの深さを学習し、変化をもたらすニューラルネットワークの能力を実証しました。ネットワークは優れたパフォーマンスを実現しますが、見過ごされがちな詳細は、単眼視の固有のあいまいさのために、未知のスケーリング係数までの深さを予測することです。次に、スケーリング係数は通常、テスト時にLiDARグラウンドトゥルースから取得されます。これにより、これらの方法の実際のアプリケーションが大幅に制限されます。この論文では、カメラの構成と環境に関する事前情報を組み込むことで、スケールのあいまいさを取り除き、深度を直接予測できることを示します。それでも、自己監視式を使用し、追加のセンサーに依存しません。
In the recent years, many methods demonstrated the ability of neural networks to learn depth and pose changes in a sequence of images, using only self-supervision as the training signal. Whilst the networks achieve good performance, the often over-looked detail is that due to the inherent ambiguity of monocular vision they predict depth up to an unknown scaling factor. The scaling factor is then typically obtained from the LiDAR ground truth at test time, which severely limits practical applications of these methods. In this paper, we show that incorporating prior information about the camera configuration and the environment, we can remove the scale ambiguity and predict depth directly, still using the self-supervised formulation and not relying on any additional sensors.