近年、さまざまな画像ベースのドメイン適応(DA)テクニックが提案されていますが、ビデオのドメインシフトはまだ十分に調査されていません。以前のほとんどの作品は、飽和している小規模なデータセットのパフォーマンスのみを評価します。したがって、最初に、ドメインの不一致がはるかに大きい2つの大規模なビデオDAデータセット、UCF-HMDB_fullとKinetics-Gameplayを提案します。次に、ビデオのさまざまなDA統合方法を調査し、高度なDA方法がなくても、時間的ダイナミクスを同時に調整および学習することで効果的な調整を実現できることを示します。最後に、より効果的なドメインアライメントのためにドメインの不一致を使用して一時的なダイナミクスに明示的に対応し、4つのビデオDAデータセットで最先端のパフォーマンスを達成する、時間的注意力のある敵対適応ネットワーク(TA3N)を提案します(例:7.9%の精度向上「ソースのみ」を「HMDB-> UCF」で73.9%から81.8%に、「速度論->ゲームプレイ」で10.3%向上)。コードとデータはhttp://github.com/cmhungsteve/TA3Nで公開されています。
Although various image-based domain adaptation (DA) techniques have been proposed in recent years, domain shift in videos is still not well-explored. Most previous works only evaluate performance on small-scale datasets which are saturated. Therefore, we first propose two large-scale video DA datasets with much larger domain discrepancy: UCF-HMDB_full and Kinetics-Gameplay. Second, we investigate different DA integration methods for videos, and show that simultaneously aligning and learning temporal dynamics achieves effective alignment even without sophisticated DA methods. Finally, we propose Temporal Attentive Adversarial Adaptation Network (TA3N), which explicitly attends to the temporal dynamics using domain discrepancy for more effective domain alignment, achieving state-of-the-art performance on four video DA datasets (e.g. 7.9% accuracy gain over "Source only" from 73.9% to 81.8% on "HMDB --> UCF", and 10.3% gain on "Kinetics --> Gameplay"). The code and data are released at http://github.com/cmhungsteve/TA3N.