自動運転用の現在の LiDAR ベースの 3D オブジェクト検出器は、特定のセンサー設定を使用して特定の地理的ドメインで収集された人間が注釈を付けたデータに基づいてほぼ完全にトレーニングされているため、別のドメインに適応することは困難です。 MODEST は、ラベルなしで 3D オブジェクト検出器をトレーニングする最初の作業です。私たちの研究である HyperMODEST は、MODEST の上に実装された普遍的な方法を提案しています。これは、自己トレーニング プロセスを大幅に加速でき、特定のデータセットの調整を必要としません。信頼スコアが低いデータ拡張に使用される中間疑似ラベルをフィルタリングします。 nuScenes データセットでは、IoU=0.25 で 0 ~ 80m の範囲で AP BEV が 1.6% の大幅な改善が見られ、IoU=0.5 で 0 ~ 80m の範囲で AP BEV が 1.7% 改善されましたが、5 分の 1 しか使用していません。 MODEST独自のアプローチでトレーニングタイムを短縮。 Lyft データセットでは、反復自己トレーニングの最初のラウンド中にベースラインを超える改善も観察されます。自己トレーニング プロセスの初期段階における高精度と高再現率の間のトレードオフを、提案された方法を他の 2 つのスコア フィルタリング方法と比較することによって調査します。この作業のコードとモデルは、https://github.com/TRAILab/HyperMODEST で入手できます。
Current LiDAR-based 3D object detectors for autonomous driving are almost entirely trained on human-annotated data collected in specific geographical domains with specific sensor setups, making it difficult to adapt to a different domain. MODEST is the first work to train 3D object detectors without any labels. Our work, HyperMODEST, proposes a universal method implemented on top of MODEST that can largely accelerate the self-training process and does not require tuning on a specific dataset. We filter intermediate pseudo-labels used for data augmentation with low confidence scores. On the nuScenes dataset, we observe a significant improvement of 1.6% in AP BEV in 0-80m range at IoU=0.25 and an improvement of 1.7% in AP BEV in 0-80m range at IoU=0.5 while only using one-fifth of the training time in the original approach by MODEST. On the Lyft dataset, we also observe an improvement over the baseline during the first round of iterative self-training. We explore the trade-off between high precision and high recall in the early stage of the self-training process by comparing our proposed method with two other score filtering methods: confidence score filtering for pseudo-labels with and without static label retention. The code and models of this work are available at https://github.com/TRAILab/HyperMODEST