arXiv reaDer
構造情報が鍵です:3Dオブジェクト検出における自己注意RoI特徴抽出器
Structure Information is the Key: Self-Attention RoI Feature Extractor in 3D Object Detection
すべてのRoI特徴がグリッドピクセルから取得される2Dオブジェクト検出とは異なり、3Dポイントクラウドオブジェクト検出のRoI特徴抽出はより多様です。このホワイトペーパーでは、最初に、2つの最先端モデルPV-RCNNとVoxel-RCNNの構造とパフォーマンスの違いを比較して分析します。次に、2つのモデル間のパフォーマンスのギャップは、ポイント情報ではなく、構造情報に起因することがわかります。ボクセルフィーチャには、ポイントクラウドにダウンサンプリングする代わりに量子化を実行するため、より多くの構造情報が含まれているため、基本的にポイントクラウド全体の完全な情報を含めることができます。ボクセルフィーチャのより強力な構造情報により、ボクセルフィーチャに正確な位置情報がない場合でも、実験での検出器のパフォーマンスが向上します。次に、構造情報が3Dオブジェクト検出の鍵であることを提案します。上記の結論に基づいて、3D提案から抽出された特徴の構造情報を強化するためにSelf-Attention RoI Feature Extractor(SARFE)を提案します。 SARFEは、既存の3D検出器で簡単に使用できるプラグアンドプレイモジュールです。私たちのSARFEは、KITTIデータセットとWaymoOpenデータセットの両方で評価されます。新たに導入されたSARFEにより、リアルタイム機能を維持しながら、KITTIデータセットのサイクリストで最先端の3D検出器のパフォーマンスを大幅に向上させます。
Unlike 2D object detection where all RoI features come from grid pixels, the RoI feature extraction of 3D point cloud object detection is more diverse. In this paper, we first compare and analyze the differences in structure and performance between the two state-of-the-art models PV-RCNN and Voxel-RCNN. Then, we find that the performance gap between the two models does not come from point information, but structural information. The voxel features contain more structural information because they do quantization instead of downsampling to point cloud so that they can contain basically the complete information of the whole point cloud. The stronger structural information in voxel features makes the detector have higher performance in our experiments even if the voxel features don't have accurate location information. Then, we propose that structural information is the key to 3D object detection. Based on the above conclusion, we propose a Self-Attention RoI Feature Extractor (SARFE) to enhance structural information of the feature extracted from 3D proposals. SARFE is a plug-and-play module that can be easily used on existing 3D detectors. Our SARFE is evaluated on both KITTI dataset and Waymo Open dataset. With the newly introduced SARFE, we improve the performance of the state-of-the-art 3D detectors by a large margin in cyclist on KITTI dataset while keeping real-time capability.
updated: Mon Nov 01 2021 13:32:10 GMT+0000 (UTC)
published: Mon Nov 01 2021 13:32:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト