arXiv reaDer
効率的なAttentive Pillarネットワークを使用した正確でリアルタイムの3D歩行者検出
Accurate and Real-time 3D Pedestrian Detection Using an Efficient Attentive Pillar Network
3D 点群データから人を効率的かつ正確に検出することは、多くのロボットおよび自動運転アプリケーションで非常に重要です。この基本的な認識タスクは、(i) 時間の経過に伴う人体の姿勢とジェスチャーの大幅な変形、および (ii) 歩行者クラスのオブジェクトの点群のまばらさと不足により、依然として非常に困難です。最近の効率的な 3D オブジェクト検出アプローチは、点群データからオブジェクトを検出するためにピラー機能に依存しています。ただし、これらの柱の特徴は、人物の検出における前述のすべての課題に対処するのに十分な表現力を備えていません。この欠点に対処するために、点群のノイズを抑制しながらピラー機能抽出を強化するためのスタック可能なピラー アウェア アテンション (PAA) モジュールを最初に導入します。マルチポイント チャネル プーリング、ポイント単位、チャネル単位、およびタスク認識型の注意を単純なモジュールに統合することで、追加のコンピューティング リソースをほとんど必要とせずに、表現機能が強化されます。また、双方向の情報フローとマルチレベルのクロススケール機能融合を作成してマルチ解像度機能をより適切に統合する、小さいながらも効果的な機能ネットワークである Mini-BiFPN も紹介します。提案されたフレームワーク、つまり PiFeNet は、3D 歩行者検出用の 3 つの一般的な大規模データセット、つまり KITTI、JRDB、および nuScenes で評価され、KITTI 鳥瞰図 (BEV) で最先端の (SOTA) パフォーマンスを達成しています。 ) および JRDB と、nuScenes での非常に競争力のあるパフォーマンス。私たちのアプローチの推論速度は 26 フレーム/秒 (FPS) で、リアルタイムの検出器になります。 PiFeNet のコードは、https://github.com/ldtho/PiFeNet で入手できます。
Efficiently and accurately detecting people from 3D point cloud data is of great importance in many robotic and autonomous driving applications. This fundamental perception task is still very challenging due to (i) significant deformations of human body pose and gesture over time and (ii) point cloud sparsity and scarcity for pedestrian class objects. Recent efficient 3D object detection approaches rely on pillar features to detect objects from point cloud data. However, these pillar features do not carry sufficient expressive representations to deal with all the aforementioned challenges in detecting people. To address this shortcoming, we first introduce a stackable Pillar Aware Attention (PAA) module for enhanced pillar features extraction while suppressing noises in the point clouds. By integrating multi-point-channel-pooling, point-wise, channel-wise, and task-aware attention into a simple module, the representation capabilities are boosted while requiring little additional computing resources. We also present Mini-BiFPN, a small yet effective feature network that creates bidirectional information flow and multi-level cross-scale feature fusion to better integrate multi-resolution features. Our proposed framework, namely PiFeNet, has been evaluated on three popular large-scale datasets for 3D pedestrian Detection, i.e. KITTI, JRDB, and nuScenes achieving state-of-the-art (SOTA) performance on KITTI Bird-eye-view (BEV) and JRDB and very competitive performance on nuScenes. Our approach has inference speed of 26 frame-per-second (FPS), making it a real-time detector. The code for our PiFeNet is available at https://github.com/ldtho/PiFeNet.
updated: Tue Aug 30 2022 07:43:53 GMT+0000 (UTC)
published: Fri Dec 31 2021 13:41:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト