arXiv reaDer
マルチチャネルビデオ言語検索のための事前学習済み対照モデルの迅速な適応に向けて
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval
マルチチャネル ビデオ言語検索では、モデルがさまざまなチャネル (ビデオ + 質問、ビデオ + スピーチなど) からの情報を理解し、ビデオをテキスト応答またはクエリに正しくリンクする必要があります。幸いなことに、対照的なマルチモーダル モデルは、画像/ビデオおよびテキスト内のエンティティを整列させるのに非常に効果的であることが示されています。テキスト対比モデルは、SimCSE などの識別可能な文の埋め込みを生成する強力な能力のために、最近広く研究されています。それらの能力は、マルチチャンネルのビデオ言語検索にまさに必要です。ただし、限られたデータとリソースで、これら 2 つの行をマルチチャネルのビデオ言語検索に迅速に適応させる明確な方法はありません。この論文では、ビデオを表現する方法と、ビデオとテキスト情報を融合する方法という 2 つの軸を持つ原理モデル デザイン スペースを特定します。最近の方法の分類に基づいて、連続特徴ベクトルまたは離散テキスト トークンを使用してビデオを表現するオプションを調査します。融合方法については、マルチモーダル トランスフォーマーまたは事前トレーニング済みの対照的なテキスト モデルの使用を検討します。 5 つのビデオ言語データセットで 4 つの組み合わせを広く評価します。驚くべきことに、個別のテキスト トークンを事前トレーニング済みの対照的なテキスト モデルと組み合わせると、最高のパフォーマンスが得られることがわかりました。これは、何百万ものビデオ言語データで追加のトレーニングを行わなくても、iVQA および How2QA データセットで最先端のパフォーマンスを上回ることさえあります。さらに分析すると、ビデオをテキスト トークンとして表すと、テキスト トークンと自然に一致するテキスト トークンを使用して主要な視覚情報が取得され、テキスト モデルは対照的な事前トレーニング プロセス後に強力なマルチモーダル レトリーバーになるためであることがわかります。
Multi-channel video-language retrieval require models to understand information from different channels (e.g. video+question, video+speech) to correctly link a video with a textual response or query. Fortunately, contrastive multimodal models have been shown to be highly effective at aligning entities in images/videos and text, e.g., CLIP; text contrastive models have been extensively studied recently for their strong ability of producing discriminative sentence embeddings, e.g., SimCSE. Their abilities are exactly needed by multi-channel video-language retrieval. However, there is not a clear way to quickly adapt these two lines to multi-channel video-language retrieval with limited data and resources. In this paper, we identify a principled model design space with two axes: how to represent videos and how to fuse video and text information. Based on categorization of recent methods, we investigate the options of representing videos using continuous feature vectors or discrete text tokens; for the fusion method, we explore the use of a multimodal transformer or a pretrained contrastive text model. We extensively evaluate the four combinations on five video-language datasets. We surprisingly find that discrete text tokens coupled with a pretrained contrastive text model yields the best performance, which can even outperform state-of-the-art on the iVQA and How2QA datasets without the additional training on millions of video-language data. Further analysis shows that this is because representing videos as text tokens captures the key visual information with text tokens that are naturally aligned with text models and the text models are strong multimodal retriever after the contrastive pretraining process.
updated: Fri Jan 06 2023 14:19:23 GMT+0000 (UTC)
published: Sun Jun 05 2022 01:43:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト