arXiv reaDer
InstructBLIP: 命令チューニングによる汎用視覚言語モデルに向けて
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
大規模な事前トレーニングと命令チューニングは、幅広い能力を備えた汎用言語モデルの作成に成功しました。ただし、追加の視覚入力から生じる豊富な入力分布とタスクの多様性のため、汎用の視覚言語モデルを構築することは困難です。視覚言語の事前トレーニングは広く研究されていますが、視覚言語の指導の調整についてはまだ研究が進んでいません。この論文では、事前学習された BLIP-2 モデルに基づいて視覚言語命令の調整に関する体系的かつ包括的な研究を実施します。私たちは、さまざまなタスクと機能をカバーする 26 の公開されているデータセットを収集し、それらを命令チューニング形式に変換します。さらに、指定された命令に合わせて調整された有益な特徴を抽出する、命令対応のクエリ トランスフォーマーを導入します。 13 個の保持されたデータセットでトレーニングされた InstructBLIP は、13 個の保持されたデータセットすべてにわたって最先端のゼロショット パフォーマンスを達成し、BLIP-2 およびより大きな Flamingo モデルを大幅に上回りました。また、当社のモデルは、個々の下流タスクに合わせて微調整すると、最先端のパフォーマンスを実現します (たとえば、画像コンテキストを含む ScienceQA の質問では 90.7% の精度)。さらに、同時マルチモーダル モデルに対する InstructBLIP の利点を定性的に実証します。すべての InstructBLIP モデルは、https://github.com/salesforce/LAVIS/tree/main/projects/instructblip でオープンソース化されています。
Large-scale pre-training and instruction tuning have been successful at creating general-purpose language models with broad competence. However, building general-purpose vision-language models is challenging due to the rich input distributions and task diversity resulting from the additional visual input. Although vision-language pretraining has been widely studied, vision-language instruction tuning remains under-explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pretrained BLIP-2 models. We gather 26 publicly available datasets, covering a wide variety of tasks and capabilities, and transform them into instruction tuning format. Additionally, we introduce an instruction-aware Query Transformer, which extracts informative features tailored to the given instruction. Trained on 13 held-in datasets, InstructBLIP attains state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and larger Flamingo models. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA questions with image contexts). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models are open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
updated: Thu Jun 15 2023 08:00:18 GMT+0000 (UTC)
published: Thu May 11 2023 00:38:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト