大規模なデータセットでの視覚言語事前トレーニング(VLP)は、さまざまなダウンストリームタスクで最高のパフォーマンスを示しています。 VLPには、完全で公正なベンチマーク(つまり、大規模な事前トレーニングデータセットと多様なダウンストリームタスクを含む)が不可欠です。英語のコーパスには多くのベンチマークがありますが、中国語などの他の言語でVLPの豊富なベンチマークを構築することは依然として重大な問題です。この目的のために、研究コミュニティがVLPモデルを公正に比較するために、ゼロと呼ばれる大規模な中国のクロスモーダルベンチマークを構築します。ダウンストリームタスク用に、2つの事前トレーニングデータセットと5つの微調整データセットをリリースします。同時に、クロスモーダル学習のための事前ランキング+ランキングの新しい事前トレーニングフレームワークを提案します。具体的には、グローバルな対照的な事前ランキングを適用して、画像とテキストの個々の表現をそれぞれ学習します。次に、画像-テキストクロスエンコーダーとテキスト-画像クロスエンコーダーを介して、きめ細かいランク付け方法で表現を融合します。モデルの機能をさらに強化するために、ターゲットガイド蒸留と機能ガイド蒸留からなる双方向蒸留戦略を提案します。簡潔にするために、モデルにR2D2という名前を付けます。 4つのパブリッククロスモーダルデータセットと提案された5つのダウンストリームデータセットで最先端のパフォーマンスを実現します。 Flickr30k-CN、COCO-CN、およびMUGEでゼロショットタスクを実行する場合、2億5000万のデータセットで事前トレーニングされたR2D2は、状態と比較して平均リコールで4.7%、5.4%、および6.3%の大幅な改善を達成します。アート。データセット、モデル、およびコードは、https://github.com/yuxie11/R2D2で入手できます。
Vision-language pre-training (VLP) on large-scale datasets has shown premier performance on various downstream tasks. A complete and fair benchmark (i.e., including large-scale pre-training datasets and diverse downstream tasks) is essential for VLP. While there are plenty of benchmarks with English corpus, building a rich benchmark for VLP with other languages, such as Chinese, remains a critical problem. To this end, we build a large-scale Chinese cross-modal benchmark called Zero for the research community to fairly compare VLP models. We release two pre-training datasets and five fine-tuning datasets for downstream tasks. Alongside, we propose a novel pre-training framework of pre-Ranking + Ranking for cross-modal learning. Specifically, we apply global contrastive pre-ranking to learn the individual representations of images and texts, respectively. We then fuse the representations in a fine-grained ranking manner via an image-text cross encoder and a text-image cross encoder. To further enhance the capability of the model, we propose a two-way distillation strategy consisting of target-guided Distillation and feature-guided Distillation. For brevity, we name our model R2D2. We achieve state-of-the-art performance on four public cross-modal datasets and the proposed five downstream datasets. When conducting zero-shot tasks on Flickr30k-CN, COCO-CN, and MUGE, R2D2 pre-trained on a 250 million dataset achieves significant improvements of 4.7%, 5.4%, and 6.3% in mean recall compared to the state-of-the-art. The datasets, models, and codes are available at https://github.com/yuxie11/R2D2