アクション認識のための新しい一般的な学習アプローチであるアクション認識のためのプロンプト学習 (PLAR) を紹介します。これは、プロンプト学習の強みを活用して学習プロセスをガイドします。私たちのアプローチは、モデルが入力ビデオ内のアクションに関連付けられた説明や指示に焦点を合わせられるようにすることで、アクションのラベルを予測するように設計されています。私たちの定式化では、オプティカル フロー、大型ビジョン モデル、認識パフォーマンスを向上させる学習可能なプロンプトなど、さまざまなプロンプトを使用します。さらに、さまざまな入力の下でプロンプト専門家のプールからプロンプトを動的に生成することを学習する学習可能なプロンプト手法を提案します。同じ目的を共有することで、私たちが提案する PLAR は、入力不変 (プロンプト専門家プール) および入力固有 (データ依存) のプロンプト知識を明示的に学習しながら、モデルの予測をガイドするプロンプトを最適化できます。地上カメラ ビデオと航空ビデオの両方で構成されるデータセット、およびシングル エージェントとマルチ エージェントのアクションを含むシーンに対するアプローチを評価します。実際に、航空マルチエージェント データセットである Okutamam では 3.17 ~ 10.2% の精度の向上が確認され、地上カメラ シングル エージェント データセットである Something Something V2 では 0.8 ~ 2.6% の精度の向上が観察されています。コードを WWW 上で公開する予定です。
We present a new general learning approach for action recognition, Prompt Learning for Action Recognition (PLAR), which leverages the strengths of prompt learning to guide the learning process. Our approach is designed to predict the action label by helping the models focus on the descriptions or instructions associated with actions in the input videos. Our formulation uses various prompts, including optical flow, large vision models, and learnable prompts to improve the recognition performance. Moreover, we propose a learnable prompt method that learns to dynamically generate prompts from a pool of prompt experts under different inputs. By sharing the same objective, our proposed PLAR can optimize prompts that guide the model's predictions while explicitly learning input-invariant (prompt experts pool) and input-specific (data-dependent) prompt knowledge. We evaluate our approach on datasets consisting of both ground camera videos and aerial videos, and scenes with single-agent and multi-agent actions. In practice, we observe a 3.17-10.2% accuracy improvement on the aerial multi-agent dataset, Okutamam and 0.8-2.6% improvement on the ground camera single-agent dataset, Something Something V2. We plan to release our code on the WWW.