ビデオと言語の事前トレーニングは、さまざまなダウンストリームタスクで有望な改善を示しています。以前のほとんどの方法は、トランスフォーマーベースのマルチモーダルエンコーダーとのクロスモーダル相互作用をキャプチャしますが、ユニモーダルビデオとテキスト機能の間の不整合に完全には対処していません。さらに、きめ細かい視覚言語の位置合わせを学習するには、通常、オブジェクト情報を提供するための既製のオブジェクト検出器が必要です。これは、検出器の限られた語彙と高価な計算コストによってボトルネックになります。 Align and Prompt:より優れたクロスモーダルアラインメントを備えた効率的で効果的なビデオと言語の事前トレーニングフレームワークを提案します。最初に、ビデオテキストコントラスト(VTC)損失を導入して、インスタンスレベルでユニモーダルビデオテキスト機能を調整します。これにより、クロスモーダル相互作用のモデリングが容易になります。次に、新しい視覚的に接地された事前トレーニングタスクを提案し、エンティティモデリング(PEM)を促します。これは、きめ細かい領域とエンティティの位置合わせを学習することを目的としています。これを実現するために、最初にエンティティプロンプターモジュールを導入します。このモジュールは、VTCでトレーニングされ、エンティティ名でインスタンス化されたビデオクロップとテキストプロンプトの類似性を生成します。次に、PEMタスクは、ランダムに選択されたビデオクロップのエンティティ疑似ラベル(つまり、正規化された類似度スコア)を予測するようにモデルに要求します。結果として得られる事前トレーニング済みモデルは、テキストビデオ検索とvideoQAの両方で最先端のパフォーマンスを実現し、以前の作業を大幅に上回ります。コードと事前トレーニング済みモデルがリリースされます。
Video-and-language pre-training has shown promising improvements on various downstream tasks. Most previous methods capture cross-modal interactions with a transformer-based multimodal encoder, not fully addressing the misalignment between unimodal video and text features. Besides, learning fine-grained visual-language alignment usually requires off-the-shelf object detectors to provide object information, which is bottlenecked by the detector's limited vocabulary and expensive computation cost. We propose Align and Prompt: an efficient and effective video-and-language pre-training framework with better cross-modal alignment. First, we introduce a video-text contrastive (VTC) loss to align unimodal video-text features at the instance level, which eases the modeling of cross-modal interactions. Then, we propose a new visually-grounded pre-training task, prompting entity modeling (PEM), which aims to learn fine-grained region-entity alignment. To achieve this, we first introduce an entity prompter module, which is trained with VTC to produce the similarity between a video crop and text prompts instantiated with entity names. The PEM task then asks the model to predict the entity pseudo-labels (i.e~normalized similarity scores) for randomly-selected video crops. The resulting pre-trained model achieves state-of-the-art performance on both text-video retrieval and videoQA, outperforming prior work by a substantial margin. Our code and pre-trained models will be released.