arXiv reaDer
CLIP トレーニングの逆スケーリング則
An Inverse Scaling Law for CLIP Training
画像とテキストを接続する最初の基盤モデルである CLIP は、コンピューター ビジョンにおける最近の多くのブレークスルーを可能にしました。しかし、それに関連する訓練コストは法外に高く、その広範な探索には大きな障壁となっています。この論文では、CLIP トレーニングには逆スケーリング則が存在するという驚くべき発見を紹介します。これにより、使用される画像/テキスト エンコーダーが大きくなるほど、トレーニングに適用できる画像/テキスト トークンのシーケンス長が短くなります。さらに、画像/テキストのトークンの長さを削減する戦略が、このスケーリング則の品質を決定する上で重要な役割を果たすことを示します。この発見の結果、学術リソースを使用した場合でも、CLIP のトレーニングに成功することができました。たとえば、A100 8 GPU サーバーでは、当社の CLIP モデルは、~2 日で 63.2%、~3 日で 67.8%、~4 日で 69.3% のゼロショット トップ 1 ImageNet 精度を達成します。 CLIP に関連する計算の障壁を軽減することで、この分野での研究、特に学者の研究がさらに活発になることを期待しています。コードは https://github.com/UCSC-VLAA/CLIPA で入手できます。
CLIP, the first foundation model that connects images and text, has enabled many recent breakthroughs in computer vision. However, its associated training cost is prohibitively high, imposing a significant barrier to its widespread exploration. In this paper, we present a surprising finding that there exists an inverse scaling law for CLIP training, whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. Moreover, we showcase that the strategy for reducing image/text token length plays a crucial role in determining the quality of this scaling law. As a result of this finding, we are able to successfully train CLIP even by using academic resources. For example, on an A100 eight-GPU server, our CLIP models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8% in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier associated with CLIP, we hope to inspire more research in this field, particularly from academics. Our code is available at https://github.com/UCSC-VLAA/CLIPA.
updated: Thu May 11 2023 17:56:09 GMT+0000 (UTC)
published: Thu May 11 2023 17:56:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト