arXiv reaDer
Wukong:1億の大規模な中国のクロスモーダル事前トレーニングデータセットと基盤フレームワーク
Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework
Vision-Language Pre-training(VLP)モデルは、さまざまなダウンストリームタスクで優れたパフォーマンスを示しています。彼らの成功は、事前にトレーニングされたクロスモーダルデータセットの規模に大きく依存しています。ただし、中国語に大規模なデータセットとベンチマークがないため、中国語のVLPモデルとより広範な多言語アプリケーションの開発が妨げられています。この作業では、Webからの1億の中国語の画像とテキストのペアを含む、Wukongという名前の大規模な中国語のクロスモーダルデータセットをリリースします。 Wukongは、VLPの研究とコミュニティ開発を促進するために、さまざまなマルチモーダル事前トレーニング方法のベンチマークを目指しています。さらに、さまざまな画像エンコーダー(ViT-B / ViT-L / SwinT)で事前トレーニングされたモデルのグループをリリースし、ロックされた画像のテキストチューニング、対照的なトークンごとの類似性など、高度な事前トレーニング手法をVLPに適用します。学習、および削減されたトークンの相互作用。広範な実験とさまざまなダウンストリームタスクの詳細なベンチマークも提供されます。実験によると、Wukongは、さまざまなクロスモーダル学習方法の有望な中国の事前トレーニングデータセットおよびベンチマークとして機能することができます。 10個のデータセットに対するゼロショット画像分類タスクの場合、モデルは73.03%の平均精度を達成します。画像テキスト検索タスクの場合、私たちのモデルは、AIC-ICCで71.6%の平均想起を達成します。これは、WenLan 2.0の結果よりも12.9%高くなっています。詳細については、https://wukong-dataset.github.io/wukong-dataset/を参照してください。
Vision-Language Pre-training (VLP) models have shown remarkable performance on various downstream tasks. Their success heavily relies on the scale of pre-trained cross-modal datasets. However, the lack of large-scale datasets and benchmarks in Chinese hinders the development of Chinese VLP models and broader multilingual applications. In this work, we release a large-scale Chinese cross-modal dataset named Wukong, containing 100 million Chinese image-text pairs from the web. Wukong aims to benchmark different multi-modal pre-training methods to facilitate the VLP research and community development. Furthermore, we release a group of models pre-trained with various image encoders (ViT-B/ViT-L/SwinT) and also apply advanced pre-training techniques into VLP such as locked-image text tuning, token-wise similarity in contrastive learning, and reduced-token interaction. Extensive experiments and a deep benchmarking of different downstream tasks are also provided. Experiments show that Wukong can serve as a promising Chinese pre-training dataset and benchmark for different cross-modal learning methods. For the zero-shot image classification task on 10 datasets, our model achieves an average accuracy of 73.03%. For the image-text retrieval task,our model achieves a mean recall of 71.6% on AIC-ICC which is 12.9% higher than the result of WenLan 2.0. More information can refer to https://wukong-dataset.github.io/wukong-dataset/.
updated: Thu Mar 10 2022 07:11:02 GMT+0000 (UTC)
published: Mon Feb 14 2022 14:37:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト