arXiv reaDer
MS3D++: 3D オブジェクト検出におけるマルチソースの教師なしドメイン適応のための専門家のアンサンブル
MS3D++: Ensemble of Experts for Multi-Source Unsupervised Domain Adaption in 3D Object Detection
なじみのない領域に 3D 検出器を導入すると、元のトレーニング データセットからの LIDAR、地理的地域、気象条件の変化により、検出率が最大 70 ~ 90% 大幅に低下することが実証されています。このドメイン ギャップにより、密に観察されたオブジェクトの検出の欠落、信頼スコアのずれ、および信頼性の高い偽陽性の増加が発生し、検出器の信頼性が非常に低くなります。これに対処するために、3D オブジェクト検出におけるマルチソースの教師なしドメイン適応のための自己トレーニング フレームワークである MS3D++ を導入します。 MS3D++ は、高品質の疑似ラベルを生成することでドメイン適応への直接的なアプローチを提供し、密度に関係なく、3D 検出器をさまざまな種類の LIDAR に適応できるようにします。私たちのアプローチは、さまざまなソースドメインからのマルチフレームの事前トレーニングされた検出器のアンサンブルの予測を効果的に融合して、ドメインの一般化を改善します。その後、ボックスの位置特定とオブジェクトの分類における時間的な一貫性を確保するために、予測を時間的に調整します。さらに、クロスドメインのコンテキストにおけるさまざまな 3D 検出器コンポーネントのパフォーマンスと特異性に関する詳細な研究を提示し、クロスドメイン検出器のアンサンブルを改善するための貴重な洞察を提供します。 Waymo、nuScenes、Lyft での実験結果は、MS3D++ 擬似ラベルでトレーニングされた検出器が、低密度 LIDAR と高密度 LIDAR の両方の鳥瞰図 (BEV) 評価で人間による注釈付きラベルを使用したトレーニングに匹敵する最先端のパフォーマンスを達成することを示しています。 。
Deploying 3D detectors in unfamiliar domains has been demonstrated to result in a drastic drop of up to 70-90% in detection rate due to variations in lidar, geographical region, or weather conditions from their original training dataset. This domain gap leads to missing detections for densely observed objects, misaligned confidence scores, and increased high-confidence false positives, rendering the detector highly unreliable. To address this, we introduce MS3D++, a self-training framework for multi-source unsupervised domain adaptation in 3D object detection. MS3D++ provides a straightforward approach to domain adaptation by generating high-quality pseudo-labels, enabling the adaptation of 3D detectors to a diverse range of lidar types, regardless of their density. Our approach effectively fuses predictions of an ensemble of multi-frame pre-trained detectors from different source domains to improve domain generalization. We subsequently refine the predictions temporally to ensure temporal consistency in box localization and object classification. Furthermore, we present an in-depth study into the performance and idiosyncrasies of various 3D detector components in a cross-domain context, providing valuable insights for improved cross-domain detector ensembling. Experimental results on Waymo, nuScenes and Lyft demonstrate that detectors trained with MS3D++ pseudo-labels achieve state-of-the-art performance, comparable to training with human-annotated labels in Bird's Eye View (BEV) evaluation for both low and high density lidar.
updated: Fri Aug 11 2023 07:56:10 GMT+0000 (UTC)
published: Fri Aug 11 2023 07:56:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト