複数の画像ビューからの 3D オブジェクト検出は、視覚的なシーンを理解するための基本的で困難なタスクです。低コストで効率が高いため、マルチビュー 3D オブジェクト検出は有望なアプリケーションの見通しを示しています。しかし、奥行き情報が不足しているため、遠近法でオブジェクトを正確に検出することは非常に困難です。現在のアプローチは、画像エンコーダーに重いバックボーンを採用する傾向があり、実際の展開には適用できません。画像とは異なり、LiDAR ポイントは空間的な手がかりを提供することに優れているため、非常に正確な位置特定が可能になります。このホワイト ペーパーでは、マルチビュー 3D オブジェクト検出のための LiDAR ベースの検出器の組み込みについて説明します。深度予測ネットワークを直接トレーニングする代わりに、Bird-Eye-View (BEV) 空間で画像と LiDAR 機能を統合し、教師と生徒のパラダイムで不均一な表現間で知識を適応的に伝達します。この目的のために、マルチビュー 3D オブジェクト検出のためのクロスモーダル BEV 知識蒸留 (KD) フレームワークである BEVDistill を提案します。広範な実験により、提案された方法は、推論段階で余分なコストを導入することなく、競争力の高いベースラインである BEVFormer で現在の KD アプローチよりも優れていることが実証されています。特に、当社の最高のモデルは nuScenes テスト リーダーボードで 59.4 NDS を達成し、さまざまな画像ベースの検出器と比較して新しい最先端を達成しています。コードは https://github.com/zehuichen123/BEVDistill で入手できます。
3D object detection from multiple image views is a fundamental and challenging task for visual scene understanding. Owing to its low cost and high efficiency, multi-view 3D object detection has demonstrated promising application prospects. However, accurately detecting objects through perspective views is extremely difficult due to the lack of depth information. Current approaches tend to adopt heavy backbones for image encoders, making them inapplicable for real-world deployment. Different from the images, LiDAR points are superior in providing spatial cues, resulting in highly precise localization. In this paper, we explore the incorporation of LiDAR-based detectors for multi-view 3D object detection. Instead of directly training a depth prediction network, we unify the image and LiDAR features in the Bird-Eye-View (BEV) space and adaptively transfer knowledge across non-homogenous representations in a teacher-student paradigm. To this end, we propose BEVDistill, a cross-modal BEV knowledge distillation (KD) framework for multi-view 3D object detection. Extensive experiments demonstrate that the proposed method outperforms current KD approaches on a highly-competitive baseline, BEVFormer, without introducing any extra cost in the inference phase. Notably, our best model achieves 59.4 NDS on the nuScenes test leaderboard, achieving new state-of-the-art in comparison with various image-based detectors. Code will be available at https://github.com/zehuichen123/BEVDistill.