arXiv reaDer
複数のドメインにわたる効率的な教師なし適応のための知識蒸留方法
Knowledge Distillation Methods for Efficient Unsupervised Adaptation Across Multiple Domains
大規模な注釈付きデータセットのトレーニングを必要とするCNNの複雑さを超えて、設計データと運用データの間のドメインシフトにより、多くの実際のアプリケーションでのCNNの採用が制限されています。たとえば、個人の再識別では、ビデオは重複しない視点で分散されたカメラのセットを介してキャプチャされます。ソース(ラボ設定など)ドメインとターゲット(カメラなど)ドメイン間のシフトにより、認識精度が大幅に低下する可能性があります。さらに、最先端のCNNは、計算要件を考慮すると、このようなリアルタイムアプリケーションには適さない場合があります。教師なしドメイン適応(UDA)を通じてドメインシフトの問題に対処するため、または知識蒸留(KD)を通じてCNNを加速/圧縮するために、最近いくつかの手法が提案されていますが、CNNを同時に適応および圧縮して、複数のターゲットドメインにわたって十分に一般化することを目指しています。この論文では、CNNの教師なしシングルターゲットDA(STDA)とマルチターゲットDA(MTDA)のプログレッシブKDアプローチを提案します。 KD-STDAの方法では、共通の表現との一貫性を維持するために、ターゲットドメインデータとソースドメインデータの両方でトレーニングされた、より大きな教師CNNから抽出することにより、CNNを単一のターゲットドメインに適合させます。提案されたアプローチは、Office31およびImageClef-DA画像分類データセットでのCNNの圧縮およびSTDAの最先端の方法と比較されます。また、Digits、Office31、およびOfficeHomeでのMTDAの最先端の方法と比較されます。 KD-STDAとKD-MTDAの両方の設定で、結果は、同等以下のCNNの複雑さを必要としつつ、ターゲットドメイン全体で最高レベルの精度を達成できることを示しています。
Beyond the complexity of CNNs that require training on large annotated datasets, the domain shift between design and operational data has limited the adoption of CNNs in many real-world applications. For instance, in person re-identification, videos are captured over a distributed set of cameras with non-overlapping viewpoints. The shift between the source (e.g. lab setting) and target (e.g. cameras) domains may lead to a significant decline in recognition accuracy. Additionally, state-of-the-art CNNs may not be suitable for such real-time applications given their computational requirements. Although several techniques have recently been proposed to address domain shift problems through unsupervised domain adaptation (UDA), or to accelerate/compress CNNs through knowledge distillation (KD), we seek to simultaneously adapt and compress CNNs to generalize well across multiple target domains. In this paper, we propose a progressive KD approach for unsupervised single-target DA (STDA) and multi-target DA (MTDA) of CNNs. Our method for KD-STDA adapts a CNN to a single target domain by distilling from a larger teacher CNN, trained on both target and source domain data in order to maintain its consistency with a common representation. Our proposed approach is compared against state-of-the-art methods for compression and STDA of CNNs on the Office31 and ImageClef-DA image classification datasets. It is also compared against state-of-the-art methods for MTDA on Digits, Office31, and OfficeHome. In both settings -- KD-STDA and KD-MTDA -- results indicate that our approach can achieve the highest level of accuracy across target domains, while requiring a comparable or lower CNN complexity.
updated: Mon Jan 18 2021 19:53:16 GMT+0000 (UTC)
published: Mon Jan 18 2021 19:53:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト