この論文では、BEV表現を介したLiDARベースの自動運転のための新しい自己教師付きモーション推定器を提案します。データレベルの構造の一貫性のために通常採用されている自己管理型の戦略とは異なり、連続するフレーム内のピラー間の機能レベルの一貫性を介してシーンの動きを予測します。これにより、動的なシーンでのノイズ ポイントとビューの変化する点群によって引き起こされる影響を排除できます。具体的には、対照的な学習方法で弁別的で堅牢な機能を学習するために、より多くの擬似教師付き信号をネットワークに提供するソフト弁別損失を提案します。また、点群フレーム間の有効な補償を自動的に学習して特徴抽出を強化する Gated Multi-frame Fusion ブロックも提案します。最後に、特徴距離に基づいて柱の対応確率を予測するために柱の関連付けが提案され、それによってシーンの動きがさらに予測されます。広範な実験により、シーン フローとモーション予測タスクの両方で ContrastMotion の有効性と優位性が示されました。コードはすぐに利用できます。
In this paper, we propose a novel self-supervised motion estimator for LiDAR-based autonomous driving via BEV representation. Different from usually adopted self-supervised strategies for data-level structure consistency, we predict scene motion via feature-level consistency between pillars in consecutive frames, which can eliminate the effect caused by noise points and view-changing point clouds in dynamic scenes. Specifically, we propose Soft Discriminative Loss that provides the network with more pseudo-supervised signals to learn discriminative and robust features in a contrastive learning manner. We also propose Gated Multi-frame Fusion block that learns valid compensation between point cloud frames automatically to enhance feature extraction. Finally, pillar association is proposed to predict pillar correspondence probabilities based on feature distance, and whereby further predicts scene motion. Extensive experiments show the effectiveness and superiority of our ContrastMotion on both scene flow and motion prediction tasks. The code is available soon.