自己監視深度推定は、ラベル付きデータではなく画像シーケンスを必要とするため、近年大きな注目を集めています。さらに、自動運転、ロボット工学、リアルナビゲーション、スマートシティなど、さまざまなアプリケーションで便利に使用できます。ただし、画像からグローバルなコンテキスト情報を抽出し、幾何学的に自然な深度マップを予測することは依然として困難です。このホワイトペーパーでは、深度 Linformer ブロックを使用してグローバルおよびローカルの特徴を同時に抽出する、ピクセル単位の深度推定用の DLNet を紹介します。このブロックは、Linformer ブロックと革新的なソフト スプリット多層パーセプトロン ブロックで構成されています。さらに、予測された 3 次元点群に 2 次平滑性制約を課すことにより、幾何学的に自然な深度マップを予測する 3 次元幾何学的平滑性損失が提案され、それによって副産物としてのパフォーマンスの向上が実現されます。最後に、マルチスケール予測戦略を検討し、パフォーマンスをさらに向上させるための最大マージンデュアルスケール予測戦略を提案します。 KITTI と Make3D ベンチマークの実験では、提案された DLNet は、最先端の方法に匹敵するパフォーマンスを達成し、時間とスペースの複雑さをそれぞれ 62% と 56% 以上削減しました。現実世界のさまざまな状況での広範なテストにより、提案されたモデルの強力な実用性と一般化機能がさらに実証されています。
Self-supervised depth estimation has drawn much attention in recent years as it does not require labeled data but image sequences. Moreover, it can be conveniently used in various applications, such as autonomous driving, robotics, realistic navigation, and smart cities. However, extracting global contextual information from images and predicting a geometrically natural depth map remain challenging. In this paper, we present DLNet for pixel-wise depth estimation, which simultaneously extracts global and local features with the aid of our depth Linformer block. This block consists of the Linformer and innovative soft split multi-layer perceptron blocks. Moreover, a three-dimensional geometry smoothness loss is proposed to predict a geometrically natural depth map by imposing the second-order smoothness constraint on the predicted three-dimensional point clouds, thereby realizing improved performance as a byproduct. Finally, we explore the multi-scale prediction strategy and propose the maximum margin dual-scale prediction strategy for further performance improvement. In experiments on the KITTI and Make3D benchmarks, the proposed DLNet achieves performance competitive to those of the state-of-the-art methods, reducing time and space complexities by more than 62% and 56%, respectively. Extensive testing on various real-world situations further demonstrates the strong practicality and generalization capability of the proposed model.