arXiv reaDer
WIT:マルチモーダル多言語機械学習のためのウィキペディアベースの画像テキストデータセット
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning
深い表現学習と事前トレーニング技術によってもたらされたマイルストーンの改善により、ダウンストリームのNLP、IR、およびビジョンタスク全体でパフォーマンスが大幅に向上しました。マルチモーダルモデリング手法は、(画像とテキストのモダリティ全体で)補完的な情報を学習するために、大規模で高品質のVisio言語データセットを活用することを目的としています。このホワイトペーパーでは、ウィキペディアベースの画像テキスト(WIT)データセット(https://github.com/google-research-datasets/wit)を紹介して、マルチモーダル、多言語学習をより容易にします。 WITは、3,760万のエンティティが豊富な画像テキストの例と、108のウィキペディア言語にわたる1,150万の固有の画像のキュレーションされたセットで構成されています。そのサイズにより、画像テキスト検索などのダウンストリームタスクに適用した場合に示すように、WITをマルチモーダルモデルの事前トレーニングデータセットとして使用できます。 WITには、4つの主な独自の利点があります。まず、WITは、画像テキストの例の数が3倍(執筆時点)で最大のマルチモーダルデータセットです。第2に、WITは非常に多言語(この種の最初のもの)であり、100以上の言語(それぞれに少なくとも12Kの例があります)をカバーし、多くの画像にクロスリンガルテキストを提供します。第三に、WITは、以前のデータセットがカバーするものと比較して、より多様な概念と実世界のエンティティのセットを表します。最後に、WITは、例として画像テキスト検索タスクを使用して経験的に説明しているように、非常に困難な実際のテストセットを提供します。
The milestone improvements brought about by deep representation learning and pre-training techniques have led to large performance gains across downstream NLP, IR and Vision tasks. Multimodal modeling techniques aim to leverage large high-quality visio-linguistic datasets for learning complementary information (across image and text modalities). In this paper, we introduce the Wikipedia-based Image Text (WIT) Dataset (https://github.com/google-research-datasets/wit) to better facilitate multimodal, multilingual learning. WIT is composed of a curated set of 37.6 million entity rich image-text examples with 11.5 million unique images across 108 Wikipedia languages. Its size enables WIT to be used as a pretraining dataset for multimodal models, as we show when applied to downstream tasks such as image-text retrieval. WIT has four main and unique advantages. First, WIT is the largest multimodal dataset by the number of image-text examples by 3x (at the time of writing). Second, WIT is massively multilingual (first of its kind) with coverage over 100+ languages (each of which has at least 12K examples) and provides cross-lingual texts for many images. Third, WIT represents a more diverse set of concepts and real world entities relative to what previous datasets cover. Lastly, WIT provides a very challenging real-world test set, as we empirically illustrate using an image-text retrieval task as an example.
updated: Wed Mar 03 2021 16:41:01 GMT+0000 (UTC)
published: Tue Mar 02 2021 18:13:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト