arXiv reaDer
リアルタイムの人物再識別におけるマルチターゲットドメイン適応のための知識抽出
Knowledge Distillation for Multi-Target Domain Adaptation in Real-Time Person Re-Identification
ディープラーニングアーキテクチャの最近の成功にもかかわらず、個人の再識別(ReID)は、実際のアプリケーションでは依然として困難な問題です。ソースとターゲットのビデオデータ間で通常発生するドメインシフトによって引き起こされるReID精度の低下を制限するために、いくつかの教師なし単一ターゲットドメイン適応(STDA)方法が最近提案されました。個人のReIDデータのマルチモーダルな性質(カメラの視点やキャプチャ条件による変動による)を考えると、複数のターゲットドメイン間のドメインシフトに対処するために共通のCNNバックボーンをトレーニングすることで、リアルタイムのReIDアプリケーションに効率的なソリューションを提供できます。マルチターゲットドメインアダプテーション(MTDA)は、ReIDの文献では広く取り上げられていませんが、簡単なアプローチは、さまざまなターゲットデータセットをブレンドし、その混合物に対してSTDAを実行して共通のCNNをトレーニングすることです。ただし、このアプローチでは、特に、より小さなCNNをトレーニングするために、ますます多くの個別のターゲットドメインをブレンドする場合、一般化が不十分になる可能性があります。この問題を軽減するために、リアルタイムの個人ReIDアプリケーションに適した知識蒸留(KD-ReID)に基づく新しいMTDAメソッドを導入します。私たちの方法は、それぞれが特定のターゲットドメインからのデータに適応した複数の専門の教師CNNから交互に抽出することにより、ターゲットドメインに共通の軽量の学生バックボーンCNNを適応させます。いくつかの挑戦的な人物のReIDデータセットで実施された広範な実験は、特にOSNetのようなコンパクトなCNNバックボーンをトレーニングする場合に、私たちのアプローチがブレンド方法を含むMTDAの最先端の方法よりも優れていることを示しています。結果は、当社の柔軟なMTDAアプローチを使用して、リアルタイムビデオ監視アプリケーション用の費用効果の高いReIDシステムを設計できることを示唆しています。
Despite the recent success of deep learning architectures, person re-identification (ReID) remains a challenging problem in real-word applications. Several unsupervised single-target domain adaptation (STDA) methods have recently been proposed to limit the decline in ReID accuracy caused by the domain shift that typically occurs between source and target video data. Given the multimodal nature of person ReID data (due to variations across camera viewpoints and capture conditions), training a common CNN backbone to address domain shifts across multiple target domains, can provide an efficient solution for real-time ReID applications. Although multi-target domain adaptation (MTDA) has not been widely addressed in the ReID literature, a straightforward approach consists in blending different target datasets, and performing STDA on the mixture to train a common CNN. However, this approach may lead to poor generalization, especially when blending a growing number of distinct target domains to train a smaller CNN. To alleviate this problem, we introduce a new MTDA method based on knowledge distillation (KD-ReID) that is suitable for real-time person ReID applications. Our method adapts a common lightweight student backbone CNN over the target domains by alternatively distilling from multiple specialized teacher CNNs, each one adapted on data from a specific target domain. Extensive experiments conducted on several challenging person ReID datasets indicate that our approach outperforms state-of-art methods for MTDA, including blending methods, particularly when training a compact CNN backbone like OSNet. Results suggest that our flexible MTDA approach can be employed to design cost-effective ReID systems for real-time video surveillance applications.
updated: Mon Jul 11 2022 02:56:44 GMT+0000 (UTC)
published: Thu May 12 2022 17:28:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト