arXiv reaDer
Occupancy-MAE: マスクされた占有オートエンコーダーを使用した大規模な LiDAR ポイント クラウドの自己教師あり事前トレーニング
Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds with Masked Occupancy Autoencoders
自動運転における現在の認識モデルは、ラベル付けされた大規模な LiDAR データに大きく依存しており、注釈を付けるにはコストと時間がかかります。この作業では、自動運転で利用可能な膨大な量のラベルなし LiDAR データを使用して、自己教師ありマスク学習の研究を促進することを目指しています。ただし、既存のマスクされたポイントの自動エンコード方法は、小規模な屋内の点群にのみ焦点を当てており、通常、不均等に分散された LiDAR ポイントが多数ある屋外のシーンに適応するのに苦労しています。これらの課題に対処するために、大規模な屋外 LiDAR ポイント用に特別に設計された、Occupancy-MAE という名前の新しい自己教師ありマスク学習方法を提案します。大規模な屋外 LiDAR ポイント クラウドの徐々にまばらな占有構造を活用し、範囲を意識したランダム マスキング戦略と占有予測の口実タスクを導入します。 Occupancy-MAE は、LiDAR までの距離に基づいて LiDAR 点群のボクセルをランダムにマスクし、3D シーン全体のマスクされた占有構造を予測します。この単純な占有予測目的により、Occupancy-MAE は高レベルのセマンティック情報を抽出して、少量の可視ボクセルのみからマスクされたボクセルを復元するようになります。広範な実験により、いくつかのダウンストリーム タスクにおける Occupancy-MAE の有効性が実証されています。 3D オブジェクト検出タスクの場合、Occupancy-MAE は、KITTI での車の検出に必要なラベル付きデータを半分に減らし、Waymo での小さなオブジェクト検出を約 2% mAP 向上させます。 3D セマンティック セグメンテーション タスクの場合、Occupancy-MAE はゼロからのトレーニングよりも nuScenes で約 2% mIOU 優れています。教師なしドメイン適応タスクの場合、Occupancy-MAE はパフォーマンスを約 0.5% ~ 1% mAP 向上させます。私たちの結果は、自動運転の 3D 認識能力を強化するために、マスクされた自動エンコードを使用して、ラベル付けされていない大規模な LiDAR 点群を事前にトレーニングすることが可能であることを示しています。
Current perception models in autonomous driving rely heavily on large-scale labeled LiDAR data, which is costly and time-consuming to annotate. In this work, we aim to facilitate research on self-supervised masked learning using the vast amount of unlabeled LiDAR data available in autonomous driving. However, existing masked point autoencoding methods only focus on small-scale indoor point clouds and struggle to adapt to outdoor scenes, which usually have a large number of non-evenly distributed LiDAR points. To address these challenges, we propose a new self-supervised masked learning method named Occupancy-MAE, specifically designed for large-scale outdoor LiDAR points. We leverage the gradually sparse occupancy structure of large-scale outdoor LiDAR point clouds and introduce a range-aware random masking strategy and a pretext task of occupancy prediction. Occupancy-MAE randomly masks voxels of LiDAR point clouds based on their distance to LiDAR and predicts the masked occupancy structure of the whole 3D scene. This simple occupancy prediction objective encourages Occupancy-MAE to extract high-level semantic information to recover the masked voxel from only a small amount of visible voxels. Extensive experiments demonstrate the effectiveness of Occupancy-MAE across several downstream tasks. For the 3D object detection task, Occupancy-MAE reduces the labeled data required for car detection on KITTI by half and boosts small object detection by around 2% mAP on Waymo. For the 3D semantic segmentation task, Occupancy-MAE outperforms training from scratch by around 2% mIOU on nuScenes. For the unsupervised domain adaptation task, Occupancy-MAE improves the performance by about 0.5% ~ 1% mAP. Our results show that it is feasible to pre-train unlabeled large-scale LiDAR point clouds with masked autoencoding to enhance the 3D perception ability of autonomous driving.
updated: Sat Apr 29 2023 00:54:33 GMT+0000 (UTC)
published: Mon Jun 20 2022 17:15:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト