arXiv reaDer
効率的なビデオ理解のための視覚言語モデルの促進
Prompting Visual-Language Models for Efficient Video Understanding
視覚言語の事前トレーニングは、大規模なWebデータから視覚とテキストの共同表現を学習するのに大きな成功を収めており、ゼロショットの一般化に優れた能力を示しています。この論文では、事前に訓練された視覚言語モデルを最小限の訓練で新しいタスクに効率的に適応させる簡単な方法を紹介します。ここでは、ビデオ理解タスクについて検討します。具体的には、連続プロンプトベクトルと呼ばれるいくつかのランダムベクトルを最適化することを提案します。これは、新しいタスクを事前トレーニングの目的と同じ形式に変換します。さらに、静止画像とビデオの間のギャップを埋めるために、時間情報は、フレーム単位の視覚的特徴の上に積み重ねられた軽量のトランスフォーマーでエンコードされます。実験的に、重要なコンポーネントと必需品を分析するために広範なアブレーション研究を実施します。アクション認識、アクションローカリゼーション、およびテキストビデオ検索の9つの公開ベンチマークで、閉集合、少数ショット、開集合のシナリオ全体で、大幅なトレーニングにもかかわらず、既存の方法に対して競争力のある、または最先端のパフォーマンスを実現します。より少ないパラメータ。
Visual-language pre-training has shown great success for learning joint visual-textual representations from large-scale web data, demonstrating remarkable ability for zero-shot generalisation. This paper presents a simple method to efficiently adapt one pre-trained visual-language model to novel tasks with minimal training, and here, we consider video understanding tasks. Specifically, we propose to optimise a few random vectors, termed as continuous prompt vectors, that convert the novel tasks into the same format as the pre-training objectives. In addition, to bridge the gap between static images and videos, temporal information is encoded with lightweight Transformers stacking on top of frame-wise visual features. Experimentally, we conduct extensive ablation studies to analyse the critical components and necessities. On 9 public benchmarks of action recognition, action localisation, and text-video retrieval, across closed-set, few-shot, open-set scenarios, we achieve competitive or state-of-the-art performance to existing methods, despite training significantly fewer parameters.
updated: Wed Dec 08 2021 18:58:16 GMT+0000 (UTC)
published: Wed Dec 08 2021 18:58:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト