先駆的なデュアルエンコーダの事前トレーニング作業(CLIPやALIGNなど)により、マルチモーダル表現を対照的な学習と整合させる可能性が明らかになりました。ただし、これらの作業には膨大な量のデータと計算リソース(たとえば、10億レベルのWebデータと数百のGPU)が必要であるため、リソースが限られている研究者は複製やさらなる調査を行うことができません。この目的のために、シンプルで効果的なヒューリスティックのスタックを探索し、限られたリソースでデュアルエンコーダマルチモーダル表現の調整を実行できる包括的なトレーニングガイダンスを提供します。公的にアクセス可能な学術データセットが1400万個とV100GPUが8個しかない、再現性のある強力な競争力のある結果のベースライン、つまりZeroVLを提供します。さらに、事前トレーニングのために1億のWebデータを収集し、最先端の方法と同等またはそれ以上の結果を達成し、大規模データに対するこの方法の有効性をさらに証明します。この作業が、マルチモーダル事前トレーニングの将来の研究に役立つデータポイントと経験を提供することを願っています。私たちのコードはhttps://github.com/zerovl/ZeroVLで入手できます。
Pioneering dual-encoder pre-training works (e.g., CLIP and ALIGN) have revealed the potential of aligning multi-modal representations with contrastive learning. However, these works require a tremendous amount of data and computational resources (e.g., billion-level web data and hundreds of GPUs), which prevent researchers with limited resources from reproduction and further exploration. To this end, we explore a stack of simple but effective heuristics, and provide a comprehensive training guidance, which allows us to conduct dual-encoder multi-modal representation alignment with limited resources. We provide a reproducible strong baseline of competitive results, namely ZeroVL, with only 14M publicly accessible academic datasets and 8 V100 GPUs. Additionally, we collect 100M web data for pre-training, and achieve comparable or superior results than state-of-the-art methods, further proving the effectiveness of our method on large-scale data. We hope that this work will provide useful data points and experience for future research in multi-modal pre-training. Our code is available at https://github.com/zerovl/ZeroVL.