マルチビュー 3D オブジェクト検出には、正確な深度を学習することが不可欠です。最近のアプローチは、主に単眼画像から深度を学習しますが、単眼深度学習の不適切な性質による固有の問題に直面しています。単一の単眼深度法を使用する代わりに、この作業では、正確な深度学習を促進するために、フレーム間のジオメトリの対応を時間全体で活用する新しいサラウンド ビュー テンポラル ステレオ (STS) 手法を提案します。具体的には、自車周辺の全カメラの視野をサラウンドビューとみなし、時間ステレオマッチングを行います。 STS から得られた異なるフレーム間の幾何学的対応が利用され、単眼の深度と組み合わされて、最終的な深度予測が生成されます。 nuScenes での包括的な実験では、STS が 3D 検出能力を大幅に向上させることが示されています。 ResNet-50 バックボーンを使用した BEVDepth では、STS は mAP と NDS をそれぞれ 2.6% と 1.4% 改善します。より大きなバックボーンとより大きな画像解像度を使用すると、一貫した改善が見られ、その有効性が実証されています
Learning accurate depth is essential to multi-view 3D object detection. Recent approaches mainly learn depth from monocular images, which confront inherent difficulties due to the ill-posed nature of monocular depth learning. Instead of using a sole monocular depth method, in this work, we propose a novel Surround-view Temporal Stereo (STS) technique that leverages the geometry correspondence between frames across time to facilitate accurate depth learning. Specifically, we regard the field of views from all cameras around the ego vehicle as a unified view, namely surroundview, and conduct temporal stereo matching on it. The resulting geometrical correspondence between different frames from STS is utilized and combined with the monocular depth to yield final depth prediction. Comprehensive experiments on nuScenes show that STS greatly boosts 3D detection ability, notably for medium and long distance objects. On BEVDepth with ResNet-50 backbone, STS improves mAP and NDS by 2.6% and 1.4%, respectively. Consistent improvements are observed when using a larger backbone and a larger image resolution, demonstrating its effectiveness