arXiv reaDer
クロスモーダル 3D オブジェクト検出のための双方向伝搬
Bidirectional Propagation for Cross-Modal 3D Object Detection
最近の研究では、2D 画像ピクセルから 3D LiDAR ポイントへのきめの細かい特徴伝播がパフォーマンス向上のために広く採用されている、クロスモーダル 3D オブジェクト検出のための特徴レベル融合の優位性が明らかになりました。それでも、2D ドメインと 3D ドメインの間で異種の機能が伝播する可能性は十分に調査されていません。この論文では、既存のピクセルからポイントへの特徴伝播とは対照的に、反対のポイントからピクセルへの方向を調査し、ポイントごとの特徴が 2D 画像ブランチに逆に流れ込むことを可能にします。したがって、2D ストリームと 3D ストリームを一緒に最適化する場合、2D 画像ブランチから逆伝播される勾配は、LiDAR ポイント クラウドで動作する 3D バックボーン ネットワークの表現能力を高めることができます。次に、ピクセルツーポイントおよびポイントツーピクセルの情報フローメカニズムを組み合わせて、BiProDet と呼ばれる双方向の特徴伝播フレームワークを構築します。アーキテクチャ設計に加えて、正規化されたローカル座標マップ推定も提案します。これは、2D 画像ブランチのトレーニングのための新しい 2D 補助タスクです。これにより、画像モダリティからのローカル空間認識機能の学習が容易になり、全体的な 3D 検出パフォーマンスが暗黙的に向上します。 .広範な実験とアブレーション研究により、この方法の有効性が検証されています。特に、競争力の高い KITTI ベンチマークのサイクリスト クラスで、提出時点で 1^{\mathrmst} にランク付けされています。ソース コードは https://github.com/Eaphan/BiProDet で入手できます。
Recent works have revealed the superiority of feature-level fusion for cross-modal 3D object detection, where fine-grained feature propagation from 2D image pixels to 3D LiDAR points has been widely adopted for performance improvement. Still, the potential of heterogeneous feature propagation between 2D and 3D domains has not been fully explored. In this paper, in contrast to existing pixel-to-point feature propagation, we investigate an opposite point-to-pixel direction, allowing point-wise features to flow inversely into the 2D image branch. Thus, when jointly optimizing the 2D and 3D streams, the gradients back-propagated from the 2D image branch can boost the representation ability of the 3D backbone network working on LiDAR point clouds. Then, combining pixel-to-point and point-to-pixel information flow mechanisms, we construct an bidirectional feature propagation framework, dubbed BiProDet. In addition to the architectural design, we also propose normalized local coordinates map estimation, a new 2D auxiliary task for the training of the 2D image branch, which facilitates learning local spatial-aware features from the image modality and implicitly enhances the overall 3D detection performance. Extensive experiments and ablation studies validate the effectiveness of our method. Notably, we rank 1^{\mathrmst} on the highly competitive KITTI benchmark on the cyclist class by the time of submission. The source code is available at https://github.com/Eaphan/BiProDet.
updated: Sun Jan 22 2023 08:26:58 GMT+0000 (UTC)
published: Sun Jan 22 2023 08:26:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト