arXiv reaDer
多肢選択問題によるビデオテキスト検索の橋渡し
Bridging Video-text Retrieval with Multiple Choice Questions
検索用の転送可能なビデオテキスト表現を学習するためのモデルの事前トレーニングは、近年多くの注目を集めています。以前の主な作品は、効率的な検索のために主に2つの別々のエンコーダーを採用していますが、ビデオとテキストの間のローカルな関連付けを無視しています。別の研究では、ジョイントエンコーダーを使用してビデオとテキストを相互作用させますが、各テキストとビデオのペアをモデルにフィードする必要があるため、効率が低くなります。この作業では、多肢選択問題(MCQ)と呼ばれる新しい口実タスクを介して検索の高効率を維持しながら、きめ細かいビデオテキストの相互作用を可能にします。パラメトリックモジュールBridgeFormerは、ビデオ機能に頼ることによるテキスト機能。具体的には、テキストの豊富なセマンティクス(つまり、名詞と動詞)を利用して質問を作成します。これを使用して、ビデオエンコーダーをトレーニングし、より多くの地域コンテンツと時間的ダイナミクスをキャプチャできます。質問と回答の形で、ローカルビデオテキスト機能間のセマンティックアソシエーションを適切に確立できます。 BridgeFormerは、ダウンストリーム検索のために削除することができ、2つのエンコーダーのみで効率的で柔軟なモデルをレンダリングします。私たちの方法は、HowTo100M(100万本のビデオ)を含む、さまざまな実験設定(つまり、ゼロショットと微調整)を備えた5つのデータセットで、人気のあるテキストからビデオへの検索タスクの最先端の方法よりも優れています。さらに、ビデオからテキストへの検索としてキャストできるゼロショットアクション認識を実行します。また、私たちのアプローチは、対応するアプローチを大幅に上回っています。追加の利点として、私たちの方法は、線形評価による行動認識など、単一モダリティのダウンストリームタスクに関するはるかに短い事前トレーニングビデオで競争力のある結果を達成します。
Pre-training a model to learn transferable video-text representation for retrieval has attracted a lot of attention in recent years. Previous dominant works mainly adopt two separate encoders for efficient retrieval, but ignore local associations between videos and texts. Another line of research uses a joint encoder to interact video with texts, but results in low efficiency since each text-video pair needs to be fed into the model. In this work, we enable fine-grained video-text interactions while maintaining high efficiency for retrieval via a novel pretext task, dubbed as Multiple Choice Questions (MCQ), where a parametric module BridgeFormer is trained to answer the "questions" constructed by the text features via resorting to the video features. Specifically, we exploit the rich semantics of text (i.e., nouns and verbs) to build questions, with which the video encoder can be trained to capture more regional content and temporal dynamics. In the form of questions and answers, the semantic associations between local video-text features can be properly established. BridgeFormer is able to be removed for downstream retrieval, rendering an efficient and flexible model with only two encoders. Our method outperforms state-of-the-art methods on the popular text-to-video retrieval task in five datasets with different experimental setups (i.e., zero-shot and fine-tune), including HowTo100M (one million videos). We further conduct zero-shot action recognition, which can be cast as video-to-text retrieval, and our approach also significantly surpasses its counterparts. As an additional benefit, our method achieves competitive results with much shorter pre-training videos on single-modality downstream tasks, e.g., action recognition with linear evaluation.
updated: Thu Mar 17 2022 10:40:11 GMT+0000 (UTC)
published: Thu Jan 13 2022 09:33:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト