現在、3Dオブジェクト検出にLiDARポイントクラウドを使用するアンカーベースまたはアンカーフリーモデルは、センターアサイナ戦略を使用して3Dバウンディングボックスを推測します。ただし、実際のシーンでは、LiDARは限られたオブジェクト表面の点群しか取得できませんが、オブジェクトの中心点は存在しません。不完全な表面点群を集約してオブジェクトを取得すると、方向と寸法の推定の精度が低下します。この問題に対処するために、コーナーガイドアンカーフリーの単一ステージ3Dオブジェクト検出モデル(CG-SSD)を提案します。最初に、残余層とサブマニホールドスパース畳み込み層で構成される3Dスパース畳み込みバックボーンネットワークを使用して鳥瞰図を構築します。ライトU字型ネットワークによるさらに深い特徴マイニングのためのアイビュー(BEV)機能。第二に、コーナー監視信号を神経ネットワークに組み込むために、新しいコーナー誘導補助モジュール(CGAM)が提案されています。 CGAMは、部分的に見えるコーナーと見えないコーナーを検出して、特に小さいオブジェクトまたは部分的に遮られたオブジェクトの場合に、より正確なオブジェクトの特徴表現を取得するように明示的に設計およびトレーニングされています。最後に、バックボーンネットワークとCGAMモジュールの両方からの深い機能が連結され、ヘッドモジュールにフィードされて、シーン内のオブジェクトの分類と3Dバウンディングボックスが予測されます。実験は、CG-SSDが、62.77%mAPの単一フレームポイントクラウドデータを使用した教師あり3Dオブジェクト検出のONCEベンチマークで最先端のパフォーマンスを達成することを示しています。さらに、ONCEとWaymo Open Datasetの実験では、プラグインとしてBEV機能を使用してオブジェクトを検出し、+ 1.17%-+ 14.27%APの改善をもたらす、ほとんどのアンカーベースのモデルにCGAMを拡張できることが示されています。
At present, the anchor-based or anchor-free models that use LiDAR point clouds for 3D object detection use the center assigner strategy to infer the 3D bounding boxes. However, in a real world scene, the LiDAR can only acquire a limited object surface point clouds, but the center point of the object does not exist. Obtaining the object by aggregating the incomplete surface point clouds will bring a loss of accuracy in direction and dimension estimation. To address this problem, we propose a corner-guided anchor-free single-stage 3D object detection model (CG-SSD ).Firstly, 3D sparse convolution backbone network composed of residual layers and sub-manifold sparse convolutional layers are used to construct bird's eye view (BEV) features for further deeper feature mining by a lite U-shaped network; Secondly, a novel corner-guided auxiliary module (CGAM) is proposed to incorporate corner supervision signals into the neural network. CGAM is explicitly designed and trained to detect partially visible and invisible corners to obtains a more accurate object feature representation, especially for small or partial occluded objects; Finally, the deep features from both the backbone networks and CGAM module are concatenated and fed into the head module to predict the classification and 3D bounding boxes of the objects in the scene. The experiments demonstrate CG-SSD achieves the state-of-art performance on the ONCE benchmark for supervised 3D object detection using single frame point cloud data, with 62.77%mAP. Additionally, the experiments on ONCE and Waymo Open Dataset show that CGAM can be extended to most anchor-based models which use the BEV feature to detect objects, as a plug-in and bring +1.17%-+14.27%AP improvement.