arXiv reaDer
UniM^2AE: 自動運転における 3D 認識のための統合 3D 表現を備えたマルチモーダル マスク オートエンコーダ
UniM^2AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving
マスク オートエンコーダ (MAE) は、強力な表現を学習する上で極めて重要な役割を果たし、自動運転に不可欠なさまざまな 3D 認識タスクにわたって優れた結果をもたらします。実際の運転シナリオでは、包括的な環境認識のために複数のセンサーを導入するのが一般的です。これらのセンサーのマルチモーダル機能を統合すると、豊富で強力な機能が生成されますが、この統合に対処する MAE メソッドには顕著なギャップがあります。この研究では、自動運転における統一表現空間に合わせて調整されたマルチモーダル マスク オートエンコーダを詳しく調査し、2 つの異なるモダリティのより効率的な融合を開拓することを目指しています。画像に固有のセマンティクスと LiDAR 点群の幾何学的複雑さを複雑に組み合わせるために、UniM^2AE が提案されています。このモデルは、強力でありながら単純な、マルチモーダルな自己監視型事前トレーニング フレームワークとして機能し、主に 2 つの設計で構成されます。まず、両方のモダリティのフィーチャを、鳥瞰図 (BEV) から高さの寸法を含めて巧妙に拡張した、まとまった 3D ボリューム空間に投影します。この拡張機能により、両方のモダリティからの特徴を融合することによって得られた有益な特徴をネイティブ モダリティに逆投影して、複数のマスクされた入力を再構築することが可能になります。次に、マルチモーダル 3D インタラクティブ モジュール (MMIM) が呼び出され、インタラクション プロセス中の効率的なモーダル間インタラクションが促進されます。 nuScenes データセットに対して行われた広範な実験により、UniM^2AE の有効性が証明され、3D オブジェクト検出と BEV マップ セグメンテーションがそれぞれ 1.2% (NDS) と 6.5% (mIoU) 向上したことが示されました。コードは https://github.com/hollow-503/UniM2AE で入手できます。
Masked Autoencoders (MAE) play a pivotal role in learning potent representations, delivering outstanding results across various 3D perception tasks essential for autonomous driving. In real-world driving scenarios, it's commonplace to deploy multiple sensors for comprehensive environment perception. While integrating multi-modal features from these sensors can produce rich and powerful features, there is a noticeable gap in MAE methods addressing this integration. This research delves into multi-modal Masked Autoencoders tailored for a unified representation space in autonomous driving, aiming to pioneer a more efficient fusion of two distinct modalities. To intricately marry the semantics inherent in images with the geometric intricacies of LiDAR point clouds, the UniM^2AE is proposed. This model stands as a potent yet straightforward, multi-modal self-supervised pre-training framework, mainly consisting of two designs. First, it projects the features from both modalities into a cohesive 3D volume space, ingeniously expanded from the bird's eye view (BEV) to include the height dimension. The extension makes it possible to back-project the informative features, obtained by fusing features from both modalities, into their native modalities to reconstruct the multiple masked inputs. Second, the Multi-modal 3D Interactive Module (MMIM) is invoked to facilitate the efficient inter-modal interaction during the interaction process. Extensive experiments conducted on the nuScenes Dataset attest to the efficacy of UniM^2AE, indicating enhancements in 3D object detection and BEV map segmentation by 1.2%(NDS) and 6.5% (mIoU), respectively. Code is available at https://github.com/hollow-503/UniM2AE.
updated: Mon Aug 21 2023 02:13:40 GMT+0000 (UTC)
published: Mon Aug 21 2023 02:13:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト