Team PyKale (xy9) Submission to the EPIC-Kitchens 2021 Unsupervised Domain Adaptation Challenge for Action Recognition
このレポートでは、アクション認識のためのEPIC-Kitchens2021教師なしドメイン適応チャレンジへの提出の技術的な詳細について説明します。 EPIC-Kitchensデータセットは、より多くのモダリティを持つマルチタスクのため、他のビデオドメイン適応データセットよりも困難です。まず、チャレンジに参加するために、トランスフォーマーを使用して各モダリティから空間情報を取得します。次に、時間的注意モジュールを使用して、時間的な相互依存性をモデル化します。第三に、敵対的なドメイン適応ネットワークを使用して、ラベル付きソースドメインとラベルなしターゲットドメイン間の一般的な機能を学習します。最後に、複数のモダリティを組み込んで、レイトフュージョンを使用した3ストリームネットワークによってパフォーマンスを向上させます。私たちのネットワークは、最先端のベースラインTA ^ 3Nと同等のパフォーマンスを達成し、動詞クラスのトップ1の精度と、動詞、名詞、アクションの3つのタスクすべてのトップ5の精度でベースラインを上回っています。チーム名xy9の下で、私たちの提出物は、動詞クラスのトップ1の精度とすべてのトップ5の精度の点で5位を達成しました。
This report describes the technical details of our submission to the EPIC-Kitchens 2021 Unsupervised Domain Adaptation Challenge for Action Recognition. The EPIC-Kitchens dataset is more difficult than other video domain adaptation datasets due to multi-tasks with more modalities. Firstly, to participate in the challenge, we employ a transformer to capture the spatial information from each modality. Secondly, we employ a temporal attention module to model temporal-wise inter-dependency. Thirdly, we employ the adversarial domain adaptation network to learn the general features between labeled source and unlabeled target domain. Finally, we incorporate multiple modalities to improve the performance by a three-stream network with late fusion. Our network achieves the comparable performance with the state-of-the-art baseline TA^3N and outperforms the baseline on top-1 accuracy for verb class and top-5 accuracies for all three tasks which are verb, noun and action. Under the team name xy9, our submission achieved 5th place in terms of top-1 accuracy for verb class and all top-5 accuracies.
updated: Mon Aug 09 2021 16:06:11 GMT+0000 (UTC)
published: Tue Jun 22 2021 19:17:03 GMT+0000 (UTC)
