arXiv reaDer
DiffBEV: 鳥瞰図認識のための条件付き拡散モデル
DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception
BEV の認識は、自動運転の分野で非常に重要であり、計画、制御、および動作予測の基礎として機能します。 BEV 機能の品質は、BEV 認識のパフォーマンスに大きく影響します。ただし、カメラ パラメータと LiDAR スキャンのノイズを考慮すると、通常、有害なノイズを含む BEV 表現が得られます。拡散モデルには当然、ノイズの多いサンプルを理想的なデータにノイズ除去する機能があります。これにより、拡散モデルを利用してより良い BEV 表現を得ることができます。この作業では、DiffBEV という名前のエンドツーエンドのフレームワークを提案し、拡散モデルの可能性を活用して、より包括的な BEV 表現を生成します。私たちの知る限りでは、拡散モデルをBEVの知覚に適用したのは私たちが初めてです。実際には、3 種類の条件を設計して、粗いサンプルのノイズを除去し、セマンティックな特徴を漸進的に洗練する拡散モデルのトレーニングを導きます。さらに、相互注意モジュールを活用して、BEV 機能のコンテキストと条件付き拡散モデルのセマンティック コンテンツを融合します。 DiffBEV は、nuScenes データセットで 25.9% の mIoU を達成しました。これは、最もパフォーマンスの良い既存のアプローチよりも 6.2% 高い値です。複数のベンチマークでの定量的および定性的な結果は、BEV セマンティック セグメンテーションおよび 3D オブジェクト検出タスクにおける DiffBEV の有効性を示しています。コードはすぐに利用可能になります。
BEV perception is of great importance in the field of autonomous driving, serving as the cornerstone of planning, controlling, and motion prediction. The quality of the BEV feature highly affects the performance of BEV perception. However, taking the noises in camera parameters and LiDAR scans into consideration, we usually obtain BEV representation with harmful noises. Diffusion models naturally have the ability to denoise noisy samples to the ideal data, which motivates us to utilize the diffusion model to get a better BEV representation. In this work, we propose an end-to-end framework, named DiffBEV, to exploit the potential of diffusion model to generate a more comprehensive BEV representation. To the best of our knowledge, we are the first to apply diffusion model to BEV perception. In practice, we design three types of conditions to guide the training of the diffusion model which denoises the coarse samples and refines the semantic feature in a progressive way. What's more, a cross-attention module is leveraged to fuse the context of BEV feature and the semantic content of conditional diffusion model. DiffBEV achieves a 25.9% mIoU on the nuScenes dataset, which is 6.2% higher than the best-performing existing approach. Quantitative and qualitative results on multiple benchmarks demonstrate the effectiveness of DiffBEV in BEV semantic segmentation and 3D object detection tasks. The code will be available soon.
updated: Wed Mar 15 2023 02:42:48 GMT+0000 (UTC)
published: Wed Mar 15 2023 02:42:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト