arXiv reaDer
双方向の注意と対照的なメタ学習による少数のショットのきめ細かい行動認識
Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning
細粒度のアクション認識は、実際のアプリケーションでの特定のアクションの理解に対する新たな需要のためにますます注目を集めていますが、まれな細粒度のカテゴリのデータは非常に限られています。したがって、各クラスに与えられたサンプルが少ないだけで、新しいきめの細かいアクションを認識することを目的として、数ショットのきめの細かいアクション認識問題を提案します。粗粒度のアクションは進歩していますが、既存の数ショット認識方法では、細粒度のアクションを処理する際に2つの問題が発生します。それは、微妙なアクションの詳細をキャプチャできないことと、クラス間の分散が小さいデータから学習することの不十分さです。最初の問題に取り組むために、人間の視覚に触発された双方向注意モジュール(BAM)が提案されています。トップダウンのタスク駆動型信号とボトムアップの顕著な刺激を組み合わせることで、BAMは、有益な時空間領域を正確に強調表示することにより、微妙なアクションの詳細をキャプチャします。 2番目の問題に対処するために、対照メタ学習(CML)を導入します。広く採用されているProtoNetベースの方法と比較して、CMLは、各トレーニングエピソードで潜在的な対照ペアを最大限に活用するため、クラス間の分散が少ないデータに対してより識別力のあるビデオ表現を生成します。さらに、さまざまなモデルを公正に比較するために、2つの大規模なきめ細かいアクション認識データセットで特定のベンチマークプロトコルを確立します。広範な実験は、私たちの方法が評価されたタスク全体で一貫して最先端のパフォーマンスを達成することを示しています。
Fine-grained action recognition is attracting increasing attention due to the emerging demand of specific action understanding in real-world applications, whereas the data of rare fine-grained categories is very limited. Therefore, we propose the few-shot fine-grained action recognition problem, aiming to recognize novel fine-grained actions with only few samples given for each class. Although progress has been made in coarse-grained actions, existing few-shot recognition methods encounter two issues handling fine-grained actions: the inability to capture subtle action details and the inadequacy in learning from data with low inter-class variance. To tackle the first issue, a human vision inspired bidirectional attention module (BAM) is proposed. Combining top-down task-driven signals with bottom-up salient stimuli, BAM captures subtle action details by accurately highlighting informative spatio-temporal regions. To address the second issue, we introduce contrastive meta-learning (CML). Compared with the widely adopted ProtoNet-based method, CML generates more discriminative video representations for low inter-class variance data, since it makes full use of potential contrastive pairs in each training episode. Furthermore, to fairly compare different models, we establish specific benchmark protocols on two large-scale fine-grained action recognition datasets. Extensive experiments show that our method consistently achieves state-of-the-art performance across evaluated tasks.
updated: Sun Aug 15 2021 02:21:01 GMT+0000 (UTC)
published: Sun Aug 15 2021 02:21:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト