この作業では、ボクセルフィールドフュージョンと呼ばれる、クロスモダリティ3Dオブジェクト検出のための概念的にシンプルで効果的なフレームワークを紹介します。提案されたアプローチは、増強された画像の特徴をボクセルフィールドの光線として表現および融合することにより、クロスモダリティの一貫性を維持することを目的としています。この目的のために、学習可能なサンプラーは、最初に、ボクセルグリッドにポイントツーレイ方式で投影される画像平面から重要な特徴をサンプリングするように設計されています。これにより、空間コンテキストとの特徴表現の一貫性が維持されます。さらに、レイワイズ融合は、構築されたボクセルフィールドの補足コンテキストと機能を融合するために実行されます。さらに、データ拡張のモダリティギャップを埋める機能バリアント変換を調整するための混合拡張機能を開発します。提案されたフレームワークは、さまざまなベンチマークで一貫した向上を達成し、KITTIおよびnuScenesデータセットでの以前の融合ベースの方法よりも優れていることが実証されています。コードはhttps://github.com/dvlab-research/VFFで入手できます。
In this work, we present a conceptually simple yet effective framework for cross-modality 3D object detection, named voxel field fusion. The proposed approach aims to maintain cross-modality consistency by representing and fusing augmented image features as a ray in the voxel field. To this end, the learnable sampler is first designed to sample vital features from the image plane that are projected to the voxel grid in a point-to-ray manner, which maintains the consistency in feature representation with spatial context. In addition, ray-wise fusion is conducted to fuse features with the supplemental context in the constructed voxel field. We further develop mixed augmentor to align feature-variant transformations, which bridges the modality gap in data augmentation. The proposed framework is demonstrated to achieve consistent gains in various benchmarks and outperforms previous fusion-based methods on KITTI and nuScenes datasets. Code is made available at https://github.com/dvlab-research/VFF.