アクションがどのように実行されるかを理解し、「しっかりと折りたたむ」と「穏やかに折りたたむ」などの微妙な違いを特定することを目的としています。この目的のために、異なるアクション間で副詞を認識する方法を提案します。ただし、このようなきめの細かい注釈を取得することは困難であり、その長い尾の性質により、まれなアクション副詞の構成で副詞を認識することが困難になります。したがって、私たちのアプローチでは、複数の副詞疑似ラベルを使用した半教師あり学習を使用して、アクションラベルのみを使用した動画を活用します。これらの疑似副詞の適応しきい値処理と組み合わせることで、裾の長い分布に取り組みながら、利用可能なデータを効率的に利用することができます。さらに、3つの既存のビデオ検索データセットの副詞注釈を収集します。これにより、目に見えないアクション副詞の構成と目に見えないドメインで副詞を認識する新しいタスクを導入できます。実験は、副詞の認識における以前の作業および副詞の認識に適合した半教師あり作業よりも優れている、私たちの方法の有効性を示しています。また、副詞がどのようにきめ細かい行動に関連するかを示します。
We aim to understand how actions are performed and identify subtle differences, such as 'fold firmly' vs. 'fold gently'. To this end, we propose a method which recognizes adverbs across different actions. However, such fine-grained annotations are difficult to obtain and their long-tailed nature makes it challenging to recognize adverbs in rare action-adverb compositions. Our approach therefore uses semi-supervised learning with multiple adverb pseudo-labels to leverage videos with only action labels. Combined with adaptive thresholding of these pseudo-adverbs we are able to make efficient use of the available data while tackling the long-tailed distribution. Additionally, we gather adverb annotations for three existing video retrieval datasets, which allows us to introduce the new tasks of recognizing adverbs in unseen action-adverb compositions and unseen domains. Experiments demonstrate the effectiveness of our method, which outperforms prior work in recognizing adverbs and semi-supervised works adapted for adverb recognition. We also show how adverbs can relate fine-grained actions.