単一の画像からの密な深さの推定は、コンピュータービジョンの重要な問題であり、多くのロボットタスクに刺激的なアプリケーションが使用されています。当初はトレーニング時に監督として注釈付きのラベルを必要とする直接回帰の問題と見なされていましたが、過去数年間、ステレオカメラから、最近では強力な幾何学的キューに基づいて、自己監視型深度トレーニングでかなりの量の作業が行われました単眼ビデオシーケンス。この論文では、これらの2つのアプローチ(教師あり&自己教師あり)を効果的に組み合わせる方法を調査します。その結果、深度モデルは、スパースな監督から真のスケールをエンコードしながら、幾何学的な手がかりを使用して高い忠実度のローカル精度を達成できるようになります。この目的のために、広く使用されている測光損失を補完する新しい教師あり損失項を提案し、ロバストな半教師付き単眼深度推定モデルのトレーニングに使用する方法を示します。さらに、正確なスケール認識単眼深度モデルをトレーニングするために実際にどれだけの監督が必要かを評価し、提案されたフレームワークでは、わずか4ビーム(画像あたり100未満の有効な深度値)で、非常にまばらなLiDAR情報が、現在の最先端技術と競争力のある結果を達成するのに十分です。
Dense depth estimation from a single image is a key problem in computer vision, with exciting applications in a multitude of robotic tasks. Initially viewed as a direct regression problem, requiring annotated labels as supervision at training time, in the past few years a substantial amount of work has been done in self-supervised depth training based on strong geometric cues, both from stereo cameras and more recently from monocular video sequences. In this paper we investigate how these two approaches (supervised & self-supervised) can be effectively combined, so that a depth model can learn to encode true scale from sparse supervision while achieving high fidelity local accuracy by leveraging geometric cues. To this end, we propose a novel supervised loss term that complements the widely used photometric loss, and show how it can be used to train robust semi-supervised monocular depth estimation models. Furthermore, we evaluate how much supervision is actually necessary to train accurate scale-aware monocular depth models, showing that with our proposed framework, very sparse LiDAR information, with as few as 4 beams (less than 100 valid depth values per image), is enough to achieve results competitive with the current state-of-the-art.