大規模な事前トレーニングデータセットに依存するビジョン言語事前トレーニング(VLP)は、さまざまなダウンストリームタスクで最高のパフォーマンスを示しています。この意味で、VLPには、完全で公正なベンチマーク(つまり、大規模な事前トレーニングデータセットとさまざまなダウンストリームデータセットを含む)が不可欠です。しかし、そのようなベンチマークを中国語でどのように構築するかは、依然として重大な問題です。この目的のために、AI研究者がVLPモデルを公正に比較するために、ゼロと呼ばれる大規模な中国のクロスモーダルベンチマークを開発します。ダウンストリームタスク用に、2つの事前トレーニングデータセットと5つの微調整データセットをリリースします。さらに、クロスモーダル学習のための事前ランキング+ランキングの新しい事前トレーニングフレームワークを提案します。具体的には、グローバルな対照的な事前ランキングを適用して、画像と中国語のテキストの個々の表現をそれぞれ学習します。次に、画像-テキストクロスエンコーダーとテキスト-画像クロスエンコーダーを介して、きめ細かいランク付け方法で表現を融合します。モデルの機能をさらに強化するために、ターゲットガイド蒸留と機能ガイド蒸留からなる双方向蒸留戦略を提案します。簡単にするために、モデルをR2D2と呼びます。 4つのパブリッククロスモーダルデータセットと5つのダウンストリームデータセットで最先端のパフォーマンスを実現します。データセット、モデル、コードが利用可能になります。
Vision-language pre-training (VLP) relying on large-scale pre-training datasets has shown premier performance on various downstream tasks. In this sense, a complete and fair benchmark (i.e., including large-scale pre-training datasets and a variety of downstream datasets) is essential for VLP. But how to construct such a benchmark in Chinese remains a critical problem. To this end, we develop a large-scale Chinese cross-modal benchmark called Zero for AI researchers to fairly compare VLP models. We release two pre-training datasets and five fine-tuning datasets for downstream tasks. Furthermore, we propose a novel pre-training framework of pre-Ranking + Ranking for cross-modal learning. Specifically, we apply global contrastive pre-ranking to learn the individual representations of images and Chinese texts, respectively. We then fuse the representations in a fine-grained ranking manner via an image-text cross encoder and a text-image cross encoder. To further enhance the capability of the model, we propose a two-way distillation strategy consisting of target-guided Distillation and feature-guided Distillation. For simplicity, we call our model R2D2. We achieve state-of-the-art performance on four public cross-modal datasets and our five downstream datasets. The datasets, models and codes will be made available.