arXiv reaDer
データは、対照的な言語イメージの事前トレーニング (CLIP) における分布のロバスト性を決定します
Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)
CLIP、ALIGN、BASIC などの対照的にトレーニングされた言語イメージ モデルは、複数の困難な自然分布シフトに対して前例のない堅牢性を示しています。これらの言語イメージ モデルは以前のトレーニング アプローチとはいくつかの点で異なるため、重要な問題は、ロバスト性が大幅に向上する原因は何かということです。体系的な実験的調査を通じて、この質問に答えます。具体的には、ロバスト性向上の 5 つの考えられる原因を調査します。(i) トレーニング セットのサイズ、(ii) トレーニングの分布、(iii) トレーニング時の言語管理、(iv) テスト時の言語管理、および (v)対照的な損失関数。私たちの実験は、より多様なトレーニング分布がロバスト性向上の主な原因であり、他の要因がロバスト性にほとんどまたはまったく寄与しないことを示しています。実験結果に加えて、Flickr からの元のテキスト注釈を含む ImageNet のバージョンである ImageNet-Captions も導入し、言語イメージ トレーニングのさらに制御された実験を可能にします。
Contrastively trained language-image models such as CLIP, ALIGN, and BASIC have demonstrated unprecedented robustness to multiple challenging natural distribution shifts. Since these language-image models differ from previous training approaches in several ways, an important question is what causes the large robustness gains. We answer this question via a systematic experimental investigation. Concretely, we study five different possible causes for the robustness gains: (i) the training set size, (ii) the training distribution, (iii) language supervision at training time, (iv) language supervision at test time, and (v) the contrastive loss function. Our experiments show that the more diverse training distribution is the main cause for the robustness gains, with the other factors contributing little to no robustness. Beyond our experimental results, we also introduce ImageNet-Captions, a version of ImageNet with original text annotations from Flickr, to enable further controlled experiments of language-image training.
updated: Mon Aug 22 2022 23:59:30 GMT+0000 (UTC)
published: Tue May 03 2022 10:06:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト