マスクされたビジュアル モデリング (MVM) は、視覚的な事前トレーニングに効果的であることが最近証明されました。ビデオ入力 (マスクされたフレーム モデリングなど) に対する同様の再構成目標がビデオ言語 (VidL) の事前トレーニングで調査されていますが、以前の研究では、下流のパフォーマンスに大きなメリットをもたらす真に効果的な MVM 戦略を見つけることができませんでした。この作業では、VidL 学習のコンテキストで MVM の可能性を体系的に調べます。具体的には、完全にエンドツーエンドの VIdeO-LanguagE Transformer (VIOLET) に基づいて研究を行い、MVM トレーニングからの監視をビデオ ピクセル空間に逆伝播できます。低レベルのピクセル値と方向付けられた勾配から、高レベルの深度マップ、オプティカル フロー、個別の視覚的トークン、および潜在的な視覚的特徴まで、合計で 8 つの異なる MVM の再構築ターゲットが調査されます。包括的な実験を実施し、効果的な MVM トレーニングにつながる要因についての洞察を提供し、強化されたモデル VIOLETv2 を生み出しました。経験的に、MVM 目的で事前トレーニングされた VIOLETv2 は、ビデオ質問応答、ビデオ キャプション、テキストからビデオへの検索に至るまで、13 の VidL ベンチマークで顕著な改善を達成することを示しています。
Masked visual modeling (MVM) has been recently proven effective for visual pre-training. While similar reconstructive objectives on video inputs (e.g., masked frame modeling) have been explored in video-language (VidL) pre-training, previous studies fail to find a truly effective MVM strategy that can largely benefit the downstream performance. In this work, we systematically examine the potential of MVM in the context of VidL learning. Specifically, we base our study on a fully end-to-end VIdeO-LanguagE Transformer (VIOLET), where the supervision from MVM training can be backpropogated to the video pixel space. In total, eight different reconstructive targets of MVM are explored, from low-level pixel values and oriented gradients to high-level depth maps, optical flow, discrete visual tokens and latent visual features. We conduct comprehensive experiments and provide insights into the factors leading to effective MVM training, resulting in an enhanced model VIOLETv2. Empirically, we show VIOLETv2 pre-trained with MVM objective achieves notable improvements on 13 VidL benchmarks, ranging from video question answering, video captioning, to text-to-video retrieval.