視覚中心の自動運転認識のための最新の方法では、鳥瞰図 (BEV) 表現を広く採用して 3D シーンを記述します。ボクセル表現よりも効率が良いにもかかわらず、単一の平面でシーンのきめの細かい 3D 構造を記述することは困難です。これに対処するために、BEV に 2 つの追加の垂直面を伴う 3 透視図 (TPV) 表現を提案します。 3 つの平面に投影された特徴を合計することにより、3D 空間の各点をモデル化します。画像の特徴を 3D TPV 空間に持ち上げるために、トランスベースの TPV エンコーダー (TPVFormer) をさらに提案して、TPV の特徴を効果的に取得します。 Attention メカニズムを使用して、各 TPV プレーンの各クエリに対応する画像の特徴を集約します。実験は、スパース監視でトレーニングされたモデルがすべてのボクセルのセマンティック占有率を効果的に予測することを示しています。カメラ入力のみを使用すると、nuScenes の LiDAR セグメンテーション タスクで LiDAR ベースの方法と同等のパフォーマンスを達成できることを初めて実証します。コード: https://github.com/wzzheng/TPVFormer.
Modern methods for vision-centric autonomous driving perception widely adopt the bird's-eye-view (BEV) representation to describe a 3D scene. Despite its better efficiency than voxel representation, it has difficulty describing the fine-grained 3D structure of a scene with a single plane. To address this, we propose a tri-perspective view (TPV) representation which accompanies BEV with two additional perpendicular planes. We model each point in the 3D space by summing its projected features on the three planes. To lift image features to the 3D TPV space, we further propose a transformer-based TPV encoder (TPVFormer) to obtain the TPV features effectively. We employ the attention mechanism to aggregate the image features corresponding to each query in each TPV plane. Experiments show that our model trained with sparse supervision effectively predicts the semantic occupancy for all voxels. We demonstrate for the first time that using only camera inputs can achieve comparable performance with LiDAR-based methods on the LiDAR segmentation task on nuScenes. Code: https://github.com/wzzheng/TPVFormer.