arXiv reaDer
対照的なマルチモーダル事前トレーニングによる中国語のビデオと言語の理解
Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training
事前にトレーニングされたニューラルモデルは、最近、マルチモーダルコンテンツの理解において印象的なパフォーマンスを達成しました。ただし、次の理由により、特に中国語のビデオ言語データについて、ビデオと言語を理解するためのニューラルモデルを事前にトレーニングすることは依然として非常に困難です。まず、既存のビデオ言語の事前トレーニングアルゴリズムは、主に単語とビデオフレームの共起に焦点を当てていますが、ビデオ言語コンテンツの他の貴重な意味情報と構造情報、たとえば、順序や時空間関係を無視しています。第二に、ビデオ文の配置と他のプロキシタスクの間に競合が存在します。第三に、事前トレーニング技術の基本的な成功条件である、大規模で高品質の中国語ビデオ言語データセット(たとえば、1,000万のユニークなビデオを含む)が不足しています。この作業では、対照的なmulTimOdal pRe-trainingを介したVIdeo言語理解を表す、VICTORという名前の新しいビデオ言語理解フレームワークを提案します。マスクされた言語モデリングなどの一般的なプロキシタスクに加えて、VICTORは、対照的な学習パラダイムの下でいくつかの新しいプロキシタスクを構築し、モデルをより堅牢にし、さまざまな視点からより複雑なマルチモーダルな意味論的および構造的関係をキャプチャできるようにします。 VICTORは、対応する高品質のテキストによる説明を含む1,000万を超える完全なビデオを含む、大規模な中国語のビデオ言語データセットでトレーニングされています。事前トレーニング済みのVICTORモデルを一連のダウンストリームアプリケーションに適用し、VideoBERTやUniVLなどの最先端の事前トレーニング方法と比較して、その優れたパフォーマンスを実証します。コードと訓練されたチェックポイントは、研究コミュニティのさらなる発展を促進するために公に利用可能になります。
The pre-trained neural models have recently achieved impressive performances in understanding multimodal content. However, it is still very challenging to pre-train neural models for video and language understanding, especially for Chinese video-language data, due to the following reasons. Firstly, existing video-language pre-training algorithms mainly focus on the co-occurrence of words and video frames, but ignore other valuable semantic and structure information of video-language content, e.g., sequential order and spatiotemporal relationships. Secondly, there exist conflicts between video sentence alignment and other proxy tasks. Thirdly, there is a lack of large-scale and high-quality Chinese video-language datasets (e.g., including 10 million unique videos), which are the fundamental success conditions for pre-training techniques. In this work, we propose a novel video-language understanding framework named VICTOR, which stands for VIdeo-language understanding via Contrastive mulTimOdal pRe-training. Besides general proxy tasks such as masked language modeling, VICTOR constructs several novel proxy tasks under the contrastive learning paradigm, making the model be more robust and able to capture more complex multimodal semantic and structural relationships from different perspectives. VICTOR is trained on a large-scale Chinese video-language dataset, including over 10 million complete videos with corresponding high-quality textual descriptions. We apply the pre-trained VICTOR model to a series of downstream applications and demonstrate its superior performances, comparing against the state-of-the-art pre-training methods such as VideoBERT and UniVL. The codes and trained checkpoints will be publicly available to nourish further developments of the research community.
updated: Mon Apr 19 2021 15:58:45 GMT+0000 (UTC)
published: Mon Apr 19 2021 15:58:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト