CLIP などの大規模な画像とテキストの対照的な事前トレーニング モデルは、高品質のマルチモーダル表現を効果的に学習することが実証されています。ただし、これらの強力な機能に基づいた一般的なビデオ マルチモーダル タスクのビデオ テキスト表現の学習に関する研究は限られています。この目標に向けて、私たちは、VLAB と呼ばれる新しいビデオテキスト事前トレーニング方法を提案します。機能適応とブレンディングによるビデオ言語事前トレーニング。これは、CLIP 表現をビデオ事前トレーニング タスクに転送し、幅広い範囲の統合ビデオ マルチモーダル モデルを開発します。ビデオテキストタスク。具体的には、VLAB は、機能適応と機能ブレンディングという 2 つの主要な戦略に基づいています。前者では、時間情報のモデリングにおける CLIP の欠陥に対処し、対照的タスクと生成的タスクの両方を包含するモデルの機能を拡張するために、新しいビデオ アダプター モジュールを導入します。後者では、画像とビデオの特徴の相補性を利用してモデルのパフォーマンスをさらに向上させるエンドツーエンドのトレーニング方法を提案します。私たちは、ビデオ テキスト検索、ビデオ キャプション、ビデオ質問応答など、競争の激しいビデオ マルチモーダル タスクに関する広範な実験を通じて、VLAB の有効性と多用途性を検証します。驚くべきことに、VLAB は競合する手法を大幅に上回り、MSRVTT、MSVD、および TGIF データセットでのビデオ質問応答の新記録を樹立しました。それぞれ 49.6、61.0、79.0 の精度を達成します。コードとモデルが公開されます。
Large-scale image-text contrastive pre-training models, such as CLIP, have been demonstrated to effectively learn high-quality multimodal representations. However, there is limited research on learning video-text representations for general video multimodal tasks based on these powerful features. Towards this goal, we propose a novel video-text pre-training method dubbed VLAB: Video Language pre-training by feature Adapting and Blending, which transfers CLIP representations to video pre-training tasks and develops unified video multimodal models for a wide range of video-text tasks. Specifically, VLAB is founded on two key strategies: feature adapting and feature blending. In the former, we introduce a new video adapter module to address CLIP's deficiency in modeling temporal information and extend the model's capability to encompass both contrastive and generative tasks. In the latter, we propose an end-to-end training method that further enhances the model's performance by exploiting the complementarity of image and video features. We validate the effectiveness and versatility of VLAB through extensive experiments on highly competitive video multimodal tasks, including video text retrieval, video captioning, and video question answering. Remarkably, VLAB outperforms competing methods significantly and sets new records in video question answering on MSRVTT, MSVD, and TGIF datasets. It achieves an accuracy of 49.6, 61.0, and 79.0, respectively. Codes and models will be released.