arXiv reaDer
LiDARTouch:数ビームLiDARを使用した単眼メトリック深度推定
LiDARTouch: Monocular metric depth estimation with a few-beam LiDAR
視覚ベースの深度推定は自律システムの重要な機能であり、多くの場合、単一のカメラまたは複数の独立したカメラに依存しています。このような単眼のセットアップでは、1つまたは複数の高価なLiDARからの追加入力、たとえば64ビーム、またはスケールのあいまいさと無限の深さの問題に悩まされるカメラのみの方法のいずれかで、高密度の深さが得られます。この論文では、単眼カメラを、今日の自動車グレードの大量生産レーザースキャナーに典型的な4ビームなどの軽量LiDARと組み合わせることにより、メートル法の深さを高密度に推定する新しい代替案を提案します。最近の自己監視法に触発されて、LiDARの「タッチ」の助けを借りて、つまり、密なグラウンドトゥルース深度を必要とせずに、単眼画像から高密度深度マップを推定する、LiDARTouchと呼ばれる新しいフレームワークを導入します。私たちのセットアップでは、最小LiDAR入力は、追加モデルの入力として、自己監視LiDAR再構成目的関数で、ポーズの変化を推定する(自己監視深度推定アーキテクチャの重要なコンポーネント)という3つの異なるレベルで貢献します。私たちのLiDARTouchフレームワークは、KITTIデータセットの自己監視深度推定で新しい最先端を実現し、非常にまばらなLiDAR信号を他の視覚的機能と統合するという私たちの選択をサポートします。さらに、数ビームのLiDARを使用すると、カメラのみの方法で発生するスケールのあいまいさや無限の深さの問題が軽減されることを示します。また、完全に監視された深度完了の文献からの方法は、最小限のLiDAR信号で自己監視された体制に適応できることを示しています。
Vision-based depth estimation is a key feature in autonomous systems, which often relies on a single camera or several independent ones. In such a monocular setup, dense depth is obtained with either additional input from one or several expensive LiDARs, e.g., with 64 beams, or camera-only methods, which suffer from scale-ambiguity and infinite-depth problems. In this paper, we propose a new alternative of densely estimating metric depth by combining a monocular camera with a light-weight LiDAR, e.g., with 4 beams, typical of today's automotive-grade mass-produced laser scanners. Inspired by recent self-supervised methods, we introduce a novel framework, called LiDARTouch, to estimate dense depth maps from monocular images with the help of ``touches'' of LiDAR, i.e., without the need for dense ground-truth depth. In our setup, the minimal LiDAR input contributes on three different levels: as an additional model's input, in a self-supervised LiDAR reconstruction objective function, and to estimate changes of pose (a key component of self-supervised depth estimation architectures). Our LiDARTouch framework achieves new state of the art in self-supervised depth estimation on the KITTI dataset, thus supporting our choices of integrating the very sparse LiDAR signal with other visual features. Moreover, we show that the use of a few-beam LiDAR alleviates scale ambiguity and infinite-depth issues that camera-only methods suffer from. We also demonstrate that methods from the fully-supervised depth-completion literature can be adapted to a self-supervised regime with a minimal LiDAR signal.
updated: Fri Nov 25 2022 13:12:08 GMT+0000 (UTC)
published: Wed Sep 08 2021 12:06:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト