arXiv reaDer
テキストグラウンディングを使用した時空間的に識別可能なビデオ言語の事前トレーニング
Spatiotemporally Discriminative Video-Language Pre-Training with Text Grounding
既存のビデオ言語の事前トレーニング方法のほとんどは、グローバルな対照学習によるビデオ クリップとキャプション間のインスタンス レベルの配置に焦点を当てていますが、時間的なローカリゼーションと意味論的推論を必要とするダウンストリーム タスクにとって重要な、豊富できめ細かいローカル情報を無視しています。この作業では、差別的な時空間機能を学習するために、シンプルで効果的なビデオ言語事前トレーニング フレームワーク、つまり G-ViLM を提案します。時空間グラウンディングと時間的グループ化を含む 2 つの新しいデザインは、局所領域名詞の配置と時間認識機能の学習を同時に促進します。具体的には、時空間グラウンディングは、意味的に類似したビデオトークンを集約し、キャプションから抽出された名詞句とそれらを整列させて、ローカル領域と名詞の対応を促進します。さらに、一時的なグループ化では、カット アンド ペーストを利用して一時的なシーンの変化を手動で作成し、さまざまなシーンから識別可能な特徴を学習します。包括的な評価により、G-ViLM は、テキスト ビデオ検索、ビデオ質問応答、ビデオ アクション認識、時間アクション ローカリゼーションをカバーする 4 つの代表的なダウンストリーム タスクに対する既存のアプローチに対して有利に機能することが示されています。 G-ViLM は、評価されたすべてのタスクで競争力のあるパフォーマンスを発揮し、特に最先端の方法よりも 9% 以上高い、ゼロ ショット MSR-VTT 検索で 65.1 の R@10 を達成します。
Most of existing video-language pre-training methods focus on instance-level alignment between video clips and captions via global contrastive learning but neglect rich fine-grained local information, which is of importance to downstream tasks requiring temporal localization and semantic reasoning. In this work, we propose a simple yet effective video-language pre-training framework, namely G-ViLM, to learn discriminative spatiotemporal features. Two novel designs involving spatiotemporal grounding and temporal grouping promote learning local region-noun alignment and temporal-aware features simultaneously. Specifically, spatiotemporal grounding aggregates semantically similar video tokens and aligns them with noun phrases extracted from the caption to promote local region-noun correspondences. Moreover, temporal grouping leverages cut-and-paste to manually create temporal scene changes and then learns distinguishable features from different scenes. Comprehensive evaluations demonstrate that G-ViLM performs favorably against existing approaches on four representative downstream tasks, covering text-video retrieval, video question answering, video action recognition and temporal action localization. G-ViLM performs competitively on all evaluated tasks and in particular achieves R@10 of 65.1 on zero-shot MSR-VTT retrieval, over 9% higher than the state-of-the-art method.
updated: Tue Mar 28 2023 22:45:07 GMT+0000 (UTC)
published: Tue Mar 28 2023 22:45:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト