新しい大規模な多言語ビデオ説明データセット、VATEXを紹介します。これには、41,250以上のビデオと825,000のキャプションが英語と中国語の両方で含まれています。キャプションの中には、206,000以上の英中対訳のペアがあります。広く使用されているMSR-VTTデータセットと比較すると、VATEXは多言語で、大きく、言語的に複雑であり、ビデオと自然言語の両方の記述に関してより多様です。また、VATEXに基づくビデオと言語の研究の2つのタスクを紹介します。(1)コンパクトな統合キャプションモデルでさまざまな言語でビデオを説明することを目的とした多言語ビデオキャプション、および(2)翻訳するビデオガイド付き機械翻訳ビデオ情報を追加の時空間コンテキストとして使用して、ソース言語の説明をターゲット言語に変換します。 VATEXデータセットでの広範囲な実験は、最初に、統合多言語モデルがビデオの英語と中国語の両方の説明をより効率的に生成できるだけでなく、単一言語モデルよりも優れたパフォーマンスを提供できることを示しています。さらに、時空間ビデオコンテキストを効果的に利用してソース言語とターゲット言語を調整し、機械翻訳を支援できることを示します。最後に、VATEXを他のビデオおよび言語の研究に使用する可能性について説明します。
We present a new large-scale multilingual video description dataset, VATEX, which contains over 41,250 videos and 825,000 captions in both English and Chinese. Among the captions, there are over 206,000 English-Chinese parallel translation pairs. Compared to the widely-used MSR-VTT dataset, VATEX is multilingual, larger, linguistically complex, and more diverse in terms of both video and natural language descriptions. We also introduce two tasks for video-and-language research based on VATEX: (1) Multilingual Video Captioning, aimed at describing a video in various languages with a compact unified captioning model, and (2) Video-guided Machine Translation, to translate a source language description into the target language using the video information as additional spatiotemporal context. Extensive experiments on the VATEX dataset show that, first, the unified multilingual model can not only produce both English and Chinese descriptions for a video more efficiently, but also offer improved performance over the monolingual models. Furthermore, we demonstrate that the spatiotemporal video context can be effectively utilized to align source and target languages and thus assist machine translation. In the end, we discuss the potentials of using VATEX for other video-and-language research.