自動運転は、非常に動的な環境で多様な交通参加者と対話するときに、モーション動作の理解から恩恵を受けることができます。最近、点群から直接クラスにとらわれない動きを推定することに関心が高まっています。現在のモーション推定方法では、通常、自動運転シーンからの大量の注釈付きトレーニングデータが必要です。ただし、点群に手動でラベルを付けることは、非常に難しく、エラーが発生しやすく、時間がかかることで有名です。この論文では、豊富なラベルなしデータコレクションを正確かつ効率的なモーション学習に利用できるかどうかという研究の質問に答えることを目指しています。この目的のために、点群とペアのカメラ画像からの無料の監視信号を活用して、純粋に自己監視によって動きを推定する学習フレームワークを提案します。私たちのモデルには、点群ベースの構造的一貫性に確率的モーションマスキングとクロスセンサーモーション正則化を追加して、目的の自己監視を実現します。実験により、私たちのアプローチは教師あり手法と競合して実行され、自己教師ありモデルと教師あり微調整を組み合わせたときに最先端の結果が得られることが明らかになりました。
Autonomous driving can benefit from motion behavior comprehension when interacting with diverse traffic participants in highly dynamic environments. Recently, there has been a growing interest in estimating class-agnostic motion directly from point clouds. Current motion estimation methods usually require vast amount of annotated training data from self-driving scenes. However, manually labeling point clouds is notoriously difficult, error-prone and time-consuming. In this paper, we seek to answer the research question of whether the abundant unlabeled data collections can be utilized for accurate and efficient motion learning. To this end, we propose a learning framework that leverages free supervisory signals from point clouds and paired camera images to estimate motion purely via self-supervision. Our model involves a point cloud based structural consistency augmented with probabilistic motion masking as well as a cross-sensor motion regularization to realize the desired self-supervision. Experiments reveal that our approach performs competitively to supervised methods, and achieves the state-of-the-art result when combining our self-supervised model with supervised fine-tuning.