Fast-BEV: 高速で強力な鳥瞰図認識ベースライン
Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline
最近、Bird's-Eye View (BEV) 表現に基づく認識タスクがますます注目されており、BEV 表現は次世代の Autonomous Vehicle (AV) 認識の基盤として有望です。ただし、ほとんどの既存の BEV ソリューションは、車載推論を実行するためにかなりのリソースを必要とするか、適度なパフォーマンスに悩まされます。この論文では、Fast-BEV と呼ばれるシンプルで効果的なフレームワークを提案します。このフレームワークは、車載チップでより高速な BEV 認識を実行できます。この目標に向けて、私たちは最初に経験的に、BEV 表現が高価な変換ベースの変換や深さ表現なしで十分に強力になることを発見しました。私たちの Fast-BEV は 5 つの部分で構成されています。(1) 2D 画像の特徴を 3D ボクセル空間に高速転送する、展開しやすい軽量のビュー変換、(2) マルチスケール情報をより適切に活用するマルチスケール画像エンコーダーを新たに提案します。 (3) 特に車載推論を高速化するように設計された効率的な BEV エンコーダ。さらに、(4) 画像と BEV 空間の両方に対する強力なデータ拡張戦略を導入して、オーバーフィッティングを回避し、(5) 時間情報を活用するためのマルチフレーム機能融合メカニズムを導入します。実験を通じて、2080Ti プラットフォームで、当社の R50 モデルは nuScenes 検証セットで 47.3% NDS で 52.6 FPS を実行でき、BEVDepth-R50 モデルの 41.3 FPS と 47.5% NDS、および BEVDet4D-R50 の 30.2 FPS と 45.7% NDS を超えています。モデル。最大のモデル (R101@900x1600) は、nuScenes 検証セットで競争力のある 53.5% の NDS を確立します。さらに、現在普及している車載チップでかなりの精度と効率を備えたベンチマークを開発します。コードは でリリースされています。
Recently, perception task based on Bird's-Eye View (BEV) representation has drawn more and more attention, and BEV representation is promising as the foundation for next-generation Autonomous Vehicle (AV) perception. However, most existing BEV solutions either require considerable resources to execute on-vehicle inference or suffer from modest performance. This paper proposes a simple yet effective framework, termed Fast-BEV , which is capable of performing faster BEV perception on the on-vehicle chips. Towards this goal, we first empirically find that the BEV representation can be sufficiently powerful without expensive transformer based transformation nor depth representation. Our Fast-BEV consists of five parts, We novelly propose (1) a lightweight deployment-friendly view transformation which fast transfers 2D image feature to 3D voxel space, (2) an multi-scale image encoder which leverages multi-scale information for better performance, (3) an efficient BEV encoder which is particularly designed to speed up on-vehicle inference. We further introduce (4) a strong data augmentation strategy for both image and BEV space to avoid over-fitting, (5) a multi-frame feature fusion mechanism to leverage the temporal information. Through experiments, on 2080Ti platform, our R50 model can run 52.6 FPS with 47.3% NDS on the nuScenes validation set, exceeding the 41.3 FPS and 47.5% NDS of the BEVDepth-R50 model and 30.2 FPS and 45.7% NDS of the BEVDet4D-R50 model. Our largest model (R101@900x1600) establishes a competitive 53.5% NDS on the nuScenes validation set. We further develop a benchmark with considerable accuracy and efficiency on current popular on-vehicle chips. The code is released at:
updated: Tue Jul 09 2024 17:07:14 GMT+0000 (UTC)
published: Sun Jan 29 2023 18:43:31 GMT+0000 (UTC)
