交通シーンで3Dオブジェクトを検出するタスクは、多くの実際のアプリケーションで極めて重要な役割を果たします。ただし、強力な3D特徴抽出方法がないため、3Dオブジェクト検出のパフォーマンスは2Dオブジェクト検出のパフォーマンスよりも低くなります。この問題に対処するために、この研究では、3Dオブジェクト検出用の包括的な3Dフィーチャマップを取得するための3Dバックボーンネットワークを提案しています。これは主に、点群のまばらな3D畳み込みニューラルネットワーク操作で構成されています。 3Dバックボーンネットワークは、ポイントクラウドを複数の2D画像に圧縮することなく、生データから3D機能を本質的に学習できます。スパース3D畳み込みニューラルネットワークは、3Dポイントクラウドのスパース性を最大限に活用して計算を高速化し、メモリを節約します。これにより、3Dバックボーンネットワークが現実のアプリケーションで実行可能になります。 KITTIベンチマークで実証実験が行われ、3Dオブジェクト検出の最新のパフォーマンスに関して同等の結果が得られました。
The task of detecting 3D objects in traffic scenes has a pivotal role in many real-world applications. However, the performance of 3D object detection is lower than that of 2D object detection due to the lack of powerful 3D feature extraction methods. To address this issue, this study proposes a 3D backbone network to acquire comprehensive 3D feature maps for 3D object detection. It primarily consists of sparse 3D convolutional neural network operations in the point cloud. The 3D backbone network can inherently learn 3D features from the raw data without compressing the point cloud into multiple 2D images. The sparse 3D convolutional neural network takes full advantage of the sparsity in the 3D point cloud to accelerate computation and save memory, which makes the 3D backbone network feasible in a real-world application. Empirical experiments were conducted on the KITTI benchmark and comparable results were obtained with respect to the state-of-the-art performance for 3D object detection.