Investigating Attention Mechanism in 3D Point Cloud Object Detection
3次元(3D)空間での物体検出は、ロボット工学、自動運転、拡張現実などのAI駆動型アプリケーションで不可欠なタスクであるため、学界や産業界から大きな関心を集めています。 3Dデータの基本形式として、点群は元の3D空間内のオブジェクトに関する詳細な幾何学的情報を提供できます。ただし、3Dデータのスパース性と順序付けがないため、このタイプのデータを処理するには、特別に設計されたネットワークとモジュールが必要です。注意メカニズムは、さまざまなコンピュータビジョンタスクで印象的なパフォーマンスを達成しています。ただし、アテンションモジュールが3Dポイントクラウドオブジェクト検出のパフォーマンスにどのように影響するか、およびどのような種類のアテンションモジュールが3Dデータの固有のプロパティに適合するかは不明です。この作業では、3Dポイントクラウドオブジェクト検出におけるアテンションメカニズムの役割を調査し、さまざまなアテンションモジュールの可能性についての洞察を提供します。これを実現するために、SUN RGB-DおよびScanNetV2データセットの最新の点群トランスフォーマーを含む、従来の2Dアテンション、新しい3Dアテンションを包括的に調査します。詳細な実験と分析に基づいて、さまざまな注意モジュールの効果を結論付けます。この論文は、注意が埋め込まれた3D点群オブジェクトの検出に役立つ参考資料として役立つことが期待されています。コードとトレーニング済みモデルは、で入手できます。
Object detection in three-dimensional (3D) space attracts much interest from academia and industry since it is an essential task in AI-driven applications such as robotics, autonomous driving, and augmented reality. As the basic format of 3D data, the point cloud can provide detailed geometric information about the objects in the original 3D space. However, due to 3D data's sparsity and unorderedness, specially designed networks and modules are needed to process this type of data. Attention mechanism has achieved impressive performance in diverse computer vision tasks; however, it is unclear how attention modules would affect the performance of 3D point cloud object detection and what sort of attention modules could fit with the inherent properties of 3D data. This work investigates the role of the attention mechanism in 3D point cloud object detection and provides insights into the potential of different attention modules. To achieve that, we comprehensively investigate classical 2D attentions, novel 3D attentions, including the latest point cloud transformers on SUN RGB-D and ScanNetV2 datasets. Based on the detailed experiments and analysis, we conclude the effects of different attention modules. This paper is expected to serve as a reference source for benefiting attention-embedded 3D point cloud object detection. The code and trained models are available at:
updated: Thu Oct 14 2021 07:08:59 GMT+0000 (UTC)
published: Mon Aug 02 2021 03:54:39 GMT+0000 (UTC)
