arXiv reaDer
視覚言語モデルのゼロショットクロスリンガル転送のための多言語マルチモーダル事前トレーニング
Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models
この論文は、視覚言語モデルのゼロショットの言語間伝達を研究している。具体的には、多言語のテキストからビデオへの検索に焦点を当て、コンテキスト化された多言語のマルチモーダル埋め込みを学習するTransformerベースのモデルを提案します。ゼロショット設定では、英語以外の文を使用して多言語のテキストビデオモデルにクエリを実行すると、パフォーマンスが大幅に低下することを経験的に示しています。この問題に対処するために、多言語マルチモーダル事前トレーニング戦略を導入し、事前トレーニング用の新しい多言語教育ビデオデータセット(MultiHowTo100M)を収集します。 VTTでの実験は、私たちの方法が追加の注釈なしで英語以外の言語でのビデオ検索を大幅に改善することを示しています。さらに、多言語アノテーションが利用可能な場合、私たちの方法は、VTTおよびVATEXでの多言語テキストからビデオへの検索において、最近のベースラインを大幅に上回っています。 Multi30Kでの多言語のテキストから画像への検索と同様に。モデルとMulti-HowTo100Mは、http://github.com/berniebear/Multi-HT100Mで入手できます。
This paper studies zero-shot cross-lingual transfer of vision-language models. Specifically, we focus on multilingual text-to-video search and propose a Transformer-based model that learns contextualized multilingual multimodal embeddings. Under a zero-shot setting, we empirically demonstrate that performance degrades significantly when we query the multilingual text-video model with non-English sentences. To address this problem, we introduce a multilingual multimodal pre-training strategy, and collect a new multilingual instructional video dataset (MultiHowTo100M) for pre-training. Experiments on VTT show that our method significantly improves video search in non-English languages without additional annotations. Furthermore, when multilingual annotations are available, our method outperforms recent baselines by a large margin in multilingual text-to-video search on VTT and VATEX; as well as in multilingual text-to-image search on Multi30K. Our model and Multi-HowTo100M is available at http://github.com/berniebear/Multi-HT100M.
updated: Thu Mar 18 2021 17:40:09 GMT+0000 (UTC)
published: Tue Mar 16 2021 04:37:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト