arXiv reaDer
ローショットの一時的なアクションのローカリゼーションのためのマルチモーダルプロンプト
Multi-modal Prompting for Low-Shot Temporal Action Localization
このホワイト ペーパーでは、ロー ショット (ゼロ ショット & 少数ショット) シナリオでの一時的なアクション ローカリゼーションの問題を検討します。これは、トレーニングでは見られない場合でも、トリミングされていないビデオ内の任意のカテゴリからアクション インスタンスを検出して分類することを目的としています。時間。クラスにとらわれないアクション提案とそれに続くオープン語彙分類を備えた Transformer ベースの 2 段階アクション ローカリゼーション アーキテクチャを採用しています。私たちは以下の貢献をします。まず、画像とテキストの基盤モデルを一時的な動きで補償するために、オプティカル フロー、RGB、およびテキストの埋め込みを明示的に調整することで、カテゴリに依存しないアクションの提案を改善します。これは、既存のロー ショット メソッドではほとんど無視されてきました。第二に、オープン語彙アクション分類を改善するために、強力な識別力を持つ分類子を構築します。つまり、語彙のあいまいさを回避します。具体的には、詳細なアクションの説明 (大規模な言語モデルから取得)、または視覚的に調整されたインスタンス固有のプロンプト ベクトルを使用して、事前トレーニング済みの CLIP テキスト エンコーダーにプロンプトを表示することを提案します。第三に、THUMOS14とActivityNet1.3で徹底的な実験とアブレーション研究を実施し、提案されたモデルの優れたパフォーマンスを実証し、既存の最先端のアプローチを1つの大幅なマージンで上回っています。
In this paper, we consider the problem of temporal action localization under low-shot (zero-shot & few-shot) scenario, with the goal of detecting and classifying the action instances from arbitrary categories within some untrimmed videos, even not seen at training time. We adopt a Transformer-based two-stage action localization architecture with class-agnostic action proposal, followed by open-vocabulary classification. We make the following contributions. First, to compensate image-text foundation models with temporal motions, we improve category-agnostic action proposal by explicitly aligning embeddings of optical flows, RGB and texts, which has largely been ignored in existing low-shot methods. Second, to improve open-vocabulary action classification, we construct classifiers with strong discriminative power, i.e., avoid lexical ambiguities. To be specific, we propose to prompt the pre-trained CLIP text encoder either with detailed action descriptions (acquired from large-scale language models), or visually-conditioned instance-specific prompt vectors. Third, we conduct thorough experiments and ablation studies on THUMOS14 and ActivityNet1.3, demonstrating the superior performance of our proposed model, outperforming existing state-of-the-art approaches by one significant margin.
updated: Tue Mar 21 2023 10:40:13 GMT+0000 (UTC)
published: Tue Mar 21 2023 10:40:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト