3D オブジェクト検出の最新のアプローチは、主にポイント ビューまたは鳥瞰図の表現に依存しており、レンジ ビュー ベースの方法の探索は限られています。レンジビュー表現にはスケールの変動と表面テクスチャの欠如があり、その両方が対応する手法の開発に重大な制限をもたらします。特に、表面テクスチャ損失の問題は、レンジビューベースの 3D オブジェクト検出の精度に大きな影響を与えるにもかかわらず、既存のすべての方法でほとんど無視されてきました。この研究では、レンジビュー表現を包括的に調査する斬新で正確なアプローチである、レンジビュー R-CNN (R2 R-CNN) からの償還を提案します。私たちが提案する方法は、複数のスケールでレンジビューのジオメトリ情報をキャプチャする HD メタ カーネルを通じてスケールの変動に対処します。さらに、範囲ビューから失われた 3D 表面テクスチャ情報を回復するフィーチャ ポイント リデンプション (FPR) と、正確なボックス改良のための複数の受容野を備えたマルチスケール アプローチである同期グリッド RoI プーリング (S グリッド RoI プーリング) を導入します。当社の R2 R-CNN は既存のレンジビューベースの手法を上回り、KITTI ベンチマークと Waymo オープン データセットの両方で最先端のパフォーマンスを実現します。私たちの研究は、レンジビューベースの方法で正確な 3D オブジェクトを検出するには、表面テクスチャの損失問題に対処することが非常に重要であることを強調しています。コードは公開されます。
Most recent approaches for 3D object detection predominantly rely on point-view or bird's-eye view representations, with limited exploration of range-view-based methods. The range-view representation suffers from scale variation and surface texture deficiency, both of which pose significant limitations for developing corresponding methods. Notably, the surface texture loss problem has been largely ignored by all existing methods, despite its significant impact on the accuracy of range-view-based 3D object detection. In this study, we propose Redemption from Range-view R-CNN (R2 R-CNN), a novel and accurate approach that comprehensively explores the range-view representation. Our proposed method addresses scale variation through the HD Meta Kernel, which captures range-view geometry information in multiple scales. Additionally, we introduce Feature Points Redemption (FPR) to recover the lost 3D surface texture information from the range view, and Synchronous-Grid RoI Pooling (S-Grid RoI Pooling), a multi-scaled approach with multiple receptive fields for accurate box refinement. Our R2 R-CNN outperforms existing range-view-based methods, achieving state-of-the-art performance on both the KITTI benchmark and the Waymo Open Dataset. Our study highlights the critical importance of addressing the surface texture loss problem for accurate 3D object detection in range-view-based methods. Codes will be made publicly available.