arXiv reaDer
CiT: 効果的な視覚言語データのトレーニングにおけるキュレーション
CiT: Curation in Training for Effective Vision-Language Data
大規模なビジョン言語モデルは、一般に多くのダウンストリーム タスクに適用できますが、大規模な機関だけが負担できる法外なトレーニング コストがかかります。このホワイト ペーパーでは、一般性を効率化する代わりに、Curation in Training (CiT) を紹介します。Curation in Training は、データの目的をトレーニングに結合するシンプルで効率的なビジョン テキスト学習アルゴリズムです。 CiT は、高品質のデータを自動的に生成して、対照的な画像とテキストのトレーニングを高速化し、オフライン データ フィルタリング パイプラインの必要性を軽減して、広範なデータ ソース (Web からの生の画像とテキストのペアを含む) を許可します。 CiT には 2 つのループが含まれています。トレーニング データをキュレートする外側のループと、キュレートされたトレーニング データを消費する内側のループです。テキスト エンコーダーは 2 つのループを接続します。関心のあるタスクのメタデータ (クラス名など) と、画像とテキストのペアの大規模なプールが与えられると、CiT は代わりに、テキストの埋め込みとメタデータの埋め込みの類似性を測定することによって、プールから関連するトレーニング データを選択します。私たちの実験では、特に生データのサイズが大きい場合、CiT はトレーニングを 1 桁以上高速化できることがわかりました。
Large vision-language models are generally applicable to many downstream tasks, but come at an exorbitant training cost that only large institutions can afford. This paper trades generality for efficiency and presents Curation in Training (CiT), a simple and efficient vision-text learning algorithm that couples a data objective into training. CiT automatically yields quality data to speed-up contrastive image-text training and alleviates the need for an offline data filtering pipeline, allowing broad data sources (including raw image-text pairs from the web). CiT contains two loops: an outer loop curating the training data and an inner loop consuming the curated training data. The text encoder connects the two loops. Given metadata for tasks of interest, e.g., class names, and a large pool of image-text pairs, CiT alternatively selects relevant training data from the pool by measuring the similarity of their text embeddings and embeddings of the metadata. In our experiments, we observe that CiT can speed up training by over an order of magnitude, especially if the raw data size is large.
updated: Thu Jan 05 2023 18:59:57 GMT+0000 (UTC)
published: Thu Jan 05 2023 18:59:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト