arXiv reaDer
効率的なドメイン転送によるオブジェクト検出のためのインクリメンタルマルチターゲットドメイン適応
Incremental Multi-Target Domain Adaptation for Object Detection with Efficient Domain Transfer
教師なしドメイン適応の最近の進歩により、(ラベル付き)ソースと(ラベルなし)ターゲットデータ分布間のドメインシフトが緩和され、CNNの認識精度が大幅に向上しました。オブジェクト検出のためのシングルターゲットドメインアダプテーション(STDA)の問題が最近多くの注目を集めていますが、マルチカメラビデオなどのいくつかの実際のアプリケーションでの実用的な関連性にもかかわらず、マルチターゲットドメインアダプテーション(MTDA)はほとんど未踏のままです。監視。複雑なソースとターゲットの分布間の大きなドメインシフトを伴う可能性のあるSTDAの問題と比較して、MTDAは追加の課題に直面します。特に、ターゲットの適応の順序に依存する可能性のある、以前に学習したターゲットの計算要件と壊滅的な忘却です。検出用のSTDAは、ターゲットごとに1つのモデル、またはターゲットドメインからのデータが混在する1つの共通モデルを適応させることによってMTDAに適用できます。ただし、これらのアプローチはコストがかかるか、不正確です。検出に特化した唯一の最先端のMTDAメソッドは、一度に1つのターゲットを段階的に学習し、知識の蒸留に重複した検出モデルを使用することで知識の損失を軽減します。これは、計算コストが高く、多くのドメインに適切に拡張できません。 。このホワイトペーパーでは、複数のターゲットドメインに適切に一般化するインクリメンタル学習の効率的なアプローチを紹介します。 MTDAアプローチは、以前に学習したターゲットドメインからのデータを保存したり、新しいターゲットドメインが利用可能になったときに再トレーニングしたりすることなく、検出モデルを段階的に更新できるため、実際のアプリケーションに適しています。私たちが提案した方法であるMTDA-DTMは、いくつかのMTDA検出ベンチマークおよびマルチカメラ歩行者検出のベンチマークであるWildtrackで、最先端のアプローチと比較して最高レベルの検出精度を達成しました。
Recent advances in unsupervised domain adaptation have significantly improved the recognition accuracy of CNNs by alleviating the domain shift between (labeled) source and (unlabeled) target data distributions. While the problem of single-target domain adaptation (STDA) for object detection has recently received much attention, multi-target domain adaptation (MTDA) remains largely unexplored, despite its practical relevance in several real-world applications, such as multi-camera video surveillance. Compared to the STDA problem that may involve large domain shifts between complex source and target distributions, MTDA faces additional challenges, most notably the computational requirements and catastrophic forgetting of previously-learned targets, which can depend on the order of target adaptations. STDA for detection can be applied to MTDA by adapting one model per target, or one common model with a mixture of data from target domains. However, these approaches are either costly or inaccurate. The only state-of-art MTDA method specialized for detection learns targets incrementally, one target at a time, and mitigates the loss of knowledge by using a duplicated detection model for knowledge distillation, which is computationally expensive and does not scale well to many domains. In this paper, we introduce an efficient approach for incremental learning that generalizes well to multiple target domains. Our MTDA approach is more suitable for real-world applications since it allows updating the detection model incrementally, without storing data from previous-learned target domains, nor retraining when a new target domain becomes available. Our proposed method, MTDA-DTM, achieved the highest level of detection accuracy compared against state-of-the-art approaches on several MTDA detection benchmarks and Wildtrack, a benchmark for multi-camera pedestrian detection.
updated: Wed Sep 15 2021 14:10:35 GMT+0000 (UTC)
published: Tue Apr 13 2021 19:35:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト