マルチカメラ 3D オブジェクト検出の最近の傾向は、統合された鳥瞰図 (BEV) 表現によるものです。ただし、画像平面ビューから抽出された特徴を BEV に直接変換すると、特に対象オブジェクトの周囲で特徴の歪みが必然的に生じ、オブジェクトが背景にぼやけます。この目的のために、BEV ベースの 3D オブジェクト検出フレームワークにプラグインして、オブジェクト認識擬似 3D 機能と深度機能を組み込むことでオブジェクトを引き出すことができるネットワークである OA-BEV を提案します。このような機能には、オブジェクトの位置と 3D 構造に関する情報が含まれています。まず、ネットワークが各 3D オブジェクトの中心からオブジェクト レベルの監視によって深度分布を学習するように明示的に導きます。次に、2D オブジェクト検出器によって前景ピクセルを選択し、疑似ボクセル特徴エンコーディングのためにそれらを 3D 空間に投影します。最後に、オブジェクト認識深度機能と疑似ボクセル機能が、変形可能なアテンション メカニズムを使用して BEV 表現に組み込まれます。提案した OA-BEV のメリットを検証するために、nuScenes データセットで広範な実験を行います。私たちの方法は、平均精度と nuScenes 検出スコアの両方の点で、BEV ベースのベースラインよりも一貫した改善を達成しています。私たちのコードが公開されます。
The recent trend for multi-camera 3D object detection is through the unified bird's-eye view (BEV) representation. However, directly transforming features extracted from the image-plane view to BEV inevitably results in feature distortion, especially around the objects of interest, making the objects blur into the background. To this end, we propose OA-BEV, a network that can be plugged into the BEV-based 3D object detection framework to bring out the objects by incorporating object-aware pseudo-3D features and depth features. Such features contain information about the object's position and 3D structures. First, we explicitly guide the network to learn the depth distribution by object-level supervision from each 3D object's center. Then, we select the foreground pixels by a 2D object detector and project them into 3D space for pseudo-voxel feature encoding. Finally, the object-aware depth features and pseudo-voxel features are incorporated into the BEV representation with a deformable attention mechanism. We conduct extensive experiments on the nuScenes dataset to validate the merits of our proposed OA-BEV. Our method achieves consistent improvements over the BEV-based baselines in terms of both average precision and nuScenes detection score. Our codes will be published.