arXiv reaDer
BLIP-2: 凍結されたイメージ エンコーダーと大規模な言語モデルを使用した言語イメージの事前トレーニングのブートストラップ
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
大規模なモデルのエンドツーエンドのトレーニングにより、視覚と言語の事前トレーニングのコストはますます法外なものになっています。このホワイトペーパーでは、市販の凍結された事前トレーニング済み画像エンコーダーと凍結された大規模な言語モデルからビジョン言語の事前トレーニングをブートストラップする、一般的で効率的な事前トレーニング戦略である BLIP-2 を提案します。 BLIP-2 は、2 段階で事前トレーニングされた軽量の Querying Transformer でモダリティのギャップを埋めます。第 1 段階では、凍結された画像エンコーダーから学習する視覚言語表現をブートストラップします。第 2 段階では、凍結された言語モデルから視覚から言語への生成学習をブートストラップします。 BLIP-2 は、既存の方法よりもトレーニング可能なパラメーターが大幅に少ないにもかかわらず、さまざまな視覚言語タスクで最先端のパフォーマンスを実現します。たとえば、モデルはゼロショット VQAv2 で Flamingo80B より 8.7% 優れており、トレーニング可能なパラメーターは 54 分の 1 です。また、自然言語の指示に従うことができる、ゼロショットの画像からテキストへの生成というモデルの新たな機能も示します。
The cost of vision-and-language pre-training has become increasingly prohibitive due to end-to-end training of large-scale models. This paper proposes BLIP-2, a generic and efficient pre-training strategy that bootstraps vision-language pre-training from off-the-shelf frozen pre-trained image encoders and frozen large language models. BLIP-2 bridges the modality gap with a lightweight Querying Transformer, which is pre-trained in two stages. The first stage bootstraps vision-language representation learning from a frozen image encoder. The second stage bootstraps vision-to-language generative learning from a frozen language model. BLIP-2 achieves state-of-the-art performance on various vision-language tasks, despite having significantly fewer trainable parameters than existing methods. For example, our model outperforms Flamingo80B by 8.7% on zero-shot VQAv2 with 54x fewer trainable parameters. We also demonstrate the model's emerging capabilities of zero-shot image-to-text generation that can follow natural language instructions.
updated: Thu Jun 15 2023 07:57:29 GMT+0000 (UTC)
published: Mon Jan 30 2023 00:56:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト