arXiv reaDer
一人称ビデオドメイン適応のためのチャネル時間的注意
Channel-Temporal Attention for First-Person Video Domain Adaptation
教師なしドメイン適応(UDA)は、ラベル付きのソースデータから同じカテゴリのラベルなしのターゲットデータに知識を転送できます。ただし、一人称の行動認識のためのUDAは、データセットが不足しており、一人称のビデオ特性の考慮が限られているため、十分に検討されていない問題です。このホワイトペーパーでは、この問題への対処に焦点を当てています。まず、ADL_smallとGTEA-KITCHENという2つの小規模な一人称ビデオドメイン適応データセットを提案します。次に、チャネルと時間の関係をキャプチャし、一人称のビジョンにとって重要な相互依存関係をモデル化するために、チャネルと時間の注意ブロックを導入します。最後に、これらのブロックを既存のアーキテクチャに統合するために、Channel-Temporal Attention Network(CTAN)を提案します。 CTANは、提案された2つのデータセットと1つの既存のデータセットEPIC_cvpr20のベースラインを上回っています。
Unsupervised Domain Adaptation (UDA) can transfer knowledge from labeled source data to unlabeled target data of the same categories. However, UDA for first-person action recognition is an under-explored problem, with lack of datasets and limited consideration of first-person video characteristics. This paper focuses on addressing this problem. Firstly, we propose two small-scale first-person video domain adaptation datasets: ADL_small and GTEA-KITCHEN. Secondly, we introduce channel-temporal attention blocks to capture the channel-wise and temporal-wise relationships and model their inter-dependencies important to first-person vision. Finally, we propose a Channel-Temporal Attention Network (CTAN) to integrate these blocks into existing architectures. CTAN outperforms baselines on the two proposed datasets and one existing dataset EPIC_cvpr20.
updated: Tue Aug 17 2021 19:30:42 GMT+0000 (UTC)
published: Tue Aug 17 2021 19:30:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト