自動運転 (AD) コミュニティの長期的なビジョンは、認識モデルが大規模な点群データセットから学習して、さまざまなタスクやベンチマークで有望な結果を達成できる統一された表現を取得できるようにすることです。これまでの研究は主に自己監視型の事前トレーニング パイプラインに焦点を当てていました。つまり、事前トレーニングと微調整を同じベンチマークで実行するため、パフォーマンスのスケーラビリティと事前トレーニング チェックポイントのデータセット間アプリケーションを実現することが困難でした。 。この論文では、初めて、多様なデータ分布を持つ大規模な事前トレーニング点群データセットを構築し、同時にそのような多様な事前トレーニング データセットから一般化可能な表現を学習することに取り組みます。点群の事前トレーニング タスクを半教師あり問題として定式化します。これは、少数のショットのラベル付き点群データと大規模なラベルなしの点群データを活用して、多くのベースライン モデルやベンチマークに直接適用できる統合されたバックボーン表現を生成し、分離します。 AD 関連の事前トレーニング プロセスと下流の微調整タスク。バックボーンの事前トレーニング期間中に、シーンおよびインスタンスレベルの分散多様性を強化し、未知のインスタンスから学習するバックボーンの機能を活用することにより、Waymo、nuScenes、KITTI を含む一連の下流認識ベンチマークで大幅なパフォーマンス向上を達成します。 、PV-RCNN++、SECOND、CenterPoint などのさまざまなベースライン モデルの下で。
It is a long-term vision for Autonomous Driving (AD) community that the perception models can learn from a large-scale point cloud dataset, to obtain unified representations that can achieve promising results on different tasks or benchmarks. Previous works mainly focus on the self-supervised pre-training pipeline, meaning that they perform the pre-training and fine-tuning on the same benchmark, which is difficult to attain the performance scalability and cross-dataset application for the pre-training checkpoint. In this paper, for the first time, we are committed to building a large-scale pre-training point-cloud dataset with diverse data distribution, and meanwhile learning generalizable representations from such a diverse pre-training dataset. We formulate the point-cloud pre-training task as a semi-supervised problem, which leverages the few-shot labeled and massive unlabeled point-cloud data to generate the unified backbone representations that can be directly applied to many baseline models and benchmarks, decoupling the AD-related pre-training process and downstream fine-tuning task. During the period of backbone pre-training, by enhancing the scene- and instance-level distribution diversity and exploiting the backbone's ability to learn from unknown instances, we achieve significant performance gains on a series of downstream perception benchmarks including Waymo, nuScenes, and KITTI, under different baseline models like PV-RCNN++, SECOND, CenterPoint.