arXiv reaDer
DataComp: 次世代のマルチモーダル データセットを求めて
DataComp: In search of the next generation of multimodal datasets
マルチモーダル データセットは、安定拡散や GPT-4 などの最近の進歩において重要なコンポーネントですが、その設計はモデル アーキテクチャやトレーニング アルゴリズムほど研究の注目を集めていません。 ML エコシステムのこの欠点に対処するために、Common Crawl の 128 億の画像とテキストのペアの新しい候補プールを中心としたデータセット実験用のテストベッドである DataComp を導入します。ベンチマークの参加者は、新しいフィルタリング手法を設計するか、新しいデータ ソースを厳選し、標準化された CLIP トレーニング コードを実行し、結果のモデルを 38 の下流テスト セットでテストすることで新しいデータセットを評価します。私たちのベンチマークは 4 桁にわたる複数のコンピューティング スケールで構成されており、これによりスケーリング傾向の研究が可能になり、さまざまなリソースを持つ研究者がベンチマークにアクセスできるようになります。私たちのベースライン実験では、DataComp ワークフローがより優れたトレーニング セットにつながることを示しています。特に、当社の最高のベースラインである DataComp-1B は、CLIP ViT-L/14 をゼロからトレーニングして、ImageNet 上で 79.2% のゼロショット精度を実現し、同じトレーニング手順を使用しながら OpenAI の CLIP ViT-L/14 を 3.7 パーセントポイント上回ります。そして計算します。 DataComp とそれに付随するすべてのコードは www.datacomp.ai でリリースされます。
Multimodal datasets are a critical component in recent breakthroughs such as Stable Diffusion and GPT-4, yet their design does not receive the same research attention as model architectures or training algorithms. To address this shortcoming in the ML ecosystem, we introduce DataComp, a testbed for dataset experiments centered around a new candidate pool of 12.8 billion image-text pairs from Common Crawl. Participants in our benchmark design new filtering techniques or curate new data sources and then evaluate their new dataset by running our standardized CLIP training code and testing the resulting model on 38 downstream test sets. Our benchmark consists of multiple compute scales spanning four orders of magnitude, which enables the study of scaling trends and makes the benchmark accessible to researchers with varying resources. Our baseline experiments show that the DataComp workflow leads to better training sets. In particular, our best baseline, DataComp-1B, enables training a CLIP ViT-L/14 from scratch to 79.2% zero-shot accuracy on ImageNet, outperforming OpenAI's CLIP ViT-L/14 by 3.7 percentage points while using the same training procedure and compute. We release DataComp and all accompanying code at www.datacomp.ai.
updated: Tue Jul 25 2023 14:07:03 GMT+0000 (UTC)
published: Thu Apr 27 2023 11:37:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト