arXiv reaDer
対照的なビジョン-限られたリソースでの言語の事前トレーニング
Contrastive Vision-Language Pre-training with Limited Resources
先駆的なデュアルエンコーダーの事前トレーニング作業(CLIPやALIGNなど)により、マルチモーダル表現を対照的な学習と整合させる可能性が明らかになりました。ただし、これらの作業には膨大な量のデータと計算リソース(たとえば、10億レベルのWebデータと数百のGPU)が必要であるため、リソースが限られている研究者は複製やさらなる調査を行うことができません。この目的のために、リソースへの大きな依存を大幅に削減し、限られたリソースでデュアルエンコーダマルチモーダル表現の調整を実行できるようにする新しい方法のスタックを提案します。さらに、公的にアクセス可能な学術データセットが1400万個とV100 GPUが8個しかない、再現性のある競争力のある結果のベースライン、つまりZeroVLを提供します。さらに、事前トレーニングのために1億のWebデータを収集し、最先端の方法と同等またはそれ以上の結果を達成し、大規模データに対する私たちの方法の有効性をさらに証明します。この作業が、対照的な視覚言語の事前トレーニングにおける将来の研究に役立つデータポイントと経験を提供することを願っています。コードはhttps://github.com/zerovl/ZeroVLで入手できます。
Pioneering dual-encoder pre-training works (e.g., CLIP and ALIGN) have revealed the potential of aligning multi-modal representations with contrastive learning. However, these works require a tremendous amount of data and computational resources (e.g., billion-level web data and hundreds of GPUs), which prevent researchers with limited resources from reproduction and further exploration. To this end, we propose a stack of novel methods, which significantly cut down the heavy resource dependency and allow us to conduct dual-encoder multi-modal representation alignment with limited resources. Besides, we provide a reproducible baseline of competitive results, namely ZeroVL, with only 14M publicly accessible academic datasets and 8 V100 GPUs. Additionally, we collect 100M web data for pre-training, and achieve comparable or superior results than state-of-the-art methods, further proving the effectiveness of our methods on large-scale data. We hope that this work will provide useful data points and experience for future research in contrastive vision-language pre-training. Code is available at https://github.com/zerovl/ZeroVL.
updated: Mon Jul 18 2022 06:05:07 GMT+0000 (UTC)
published: Fri Dec 17 2021 05:40:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト