arXiv reaDer
行動認識のための時間的一貫性を学習することによるソースフリーのビデオドメイン適応
Source-free Video Domain Adaptation by Learning Temporal Consistency for Action Recognition
ビデオベースの教師なしドメイン適応(VUDA)メソッドは、ビデオモデルの堅牢性を向上させ、さまざまな環境にわたるアクション認識タスクに適用できるようにします。ただし、これらの方法では、適応プロセス中にソースデータに常にアクセスする必要があります。しかし、多くの実際のアプリケーションでは、ソースビデオドメインの被写体とシーンは、ターゲットビデオドメインの被写体とシーンとは無関係である必要があります。データのプライバシーがますます重要視されるようになると、ソースデータへのアクセスを必要とするこのような方法は深刻なプライバシーの問題を引き起こします。したがって、このような懸念に対処するために、より実用的なドメイン適応シナリオがソースフリービデオベースのドメイン適応(SFVDA)として策定されます。画像データのソースフリードメイン適応(SFDA)にはいくつかの方法がありますが、これらの方法では、ビデオのマルチモダリティの性質により、追加の時間的特徴が存在するため、SFVDAのパフォーマンスが低下します。この論文では、局所的な時間的特徴にわたって実行される2つの新しい一貫性の目的、すなわち特徴の一貫性とソース予測の一貫性によって保証される時間的一貫性を学習することによってSFVDAに対処するための新しい注意深い時間的一貫性ネットワーク(ATCoN)を提案します。 ATCoNは、予測の信頼性に基づいて局所的な時間的特徴に注意を払うことにより、効果的な全体的な時間的特徴をさらに構築します。経験的な結果は、さまざまなクロスドメインアクション認識ベンチマークにわたるATCoNの最先端のパフォーマンスを示しています。
Video-based Unsupervised Domain Adaptation (VUDA) methods improve the robustness of video models, enabling them to be applied to action recognition tasks across different environments. However, these methods require constant access to source data during the adaptation process. Yet in many real-world applications, subjects and scenes in the source video domain should be irrelevant to those in the target video domain. With the increasing emphasis on data privacy, such methods that require source data access would raise serious privacy issues. Therefore, to cope with such concern, a more practical domain adaptation scenario is formulated as the Source-Free Video-based Domain Adaptation (SFVDA). Though there are a few methods for Source-Free Domain Adaptation (SFDA) on image data, these methods yield degenerating performance in SFVDA due to the multi-modality nature of videos, with the existence of additional temporal features. In this paper, we propose a novel Attentive Temporal Consistent Network (ATCoN) to address SFVDA by learning temporal consistency, guaranteed by two novel consistency objectives, namely feature consistency and source prediction consistency, performed across local temporal features. ATCoN further constructs effective overall temporal features by attending to local temporal features based on prediction confidence. Empirical results demonstrate the state-of-the-art performance of ATCoN across various cross-domain action recognition benchmarks.
updated: Mon Jul 11 2022 06:57:19 GMT+0000 (UTC)
published: Wed Mar 09 2022 07:33:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト