自動運転用のLiDARデータからの3Dオブジェクト検出は、近年目覚ましい進歩を遂げています。最先端の方法論の中で、点群を鳥瞰図(BEV)にエンコードすることは、効果的かつ効率的であることが実証されています。透視図とは異なり、BEVはオブジェクト間の豊富な空間および距離情報を保持します。それでも、同じタイプの遠方のオブジェクトはBEVで小さく表示されませんが、それらにはよりまばらな点群の特徴が含まれています。この事実は、共有重み畳み込みニューラルネットワーク(CNN)を使用したBEV特徴抽出を弱めます。この課題に対処するために、効果的なBEV機能を抽出し、優れた3Dオブジェクト検出出力を生成するRange-Aware Attention Network(RAANet)を提案します。 Range-aware Attention(RAA)畳み込みは、近くのオブジェクトと遠くのオブジェクトの特徴抽出を大幅に改善します。さらに、閉塞物体のRAANetの検出精度をさらに高めるために、点密度推定のための新しい補助損失を提案します。提案されているRAA畳み込みは軽量で互換性があり、BEVからの検出に使用されるCNNアーキテクチャに統合できることに注意してください。 nuScenesおよびKITTIデータセットに関する広範な実験は、提案されたアプローチが、フルバージョンで16 Hz、ライトで22 Hzのリアルタイム推論速度で、LiDARベースの3Dオブジェクト検出の最先端の方法よりも優れていることを示しています。 nuScenesLIDARフレームでテストされたバージョン。このコードは、Githubリポジトリhttps://github.com/erbloo/RAANで公開されています。
3D object detection from LiDAR data for autonomous driving has been making remarkable strides in recent years. Among the state-of-the-art methodologies, encoding point clouds into a bird's eye view (BEV) has been demonstrated to be both effective and efficient. Different from perspective views, BEV preserves rich spatial and distance information between objects. Yet, while farther objects of the same type do not appear smaller in the BEV, they contain sparser point cloud features. This fact weakens BEV feature extraction using shared-weight convolutional neural networks (CNNs). In order to address this challenge, we propose Range-Aware Attention Network (RAANet), which extracts effective BEV features and generates superior 3D object detection outputs. The range-aware attention (RAA) convolutions significantly improve feature extraction for near as well as far objects. Moreover, we propose a novel auxiliary loss for point density estimation to further enhance the detection accuracy of RAANet for occluded objects. It is worth to note that our proposed RAA convolution is lightweight and compatible to be integrated into any CNN architecture used for detection from a BEV. Extensive experiments on the nuScenes and KITTI datasets demonstrate that our proposed approach outperforms the state-of-the-art methods for LiDAR-based 3D object detection, with real-time inference speed of 16 Hz for the full version and 22 Hz for the lite version tested on nuScenes lidar frames. The code is publicly available at our Github repository https://github.com/erbloo/RAAN.