事前トレーニング済み言語モデルからのブートストラップは、画像キャプションや視覚的質問応答などのタスク用の視覚言語モデル (VLM) を構築するための効率的なアプローチであることが証明されています。ただし、これらのモデルの出力が、特定の回答に対するユーザーの論理的根拠と一致することはめったにありません。この調整を改善し、常識的な理由を強化するために、機械で生成されたデータとの人間の相互作用に基づくチューニング パラダイムを提案します。私たちの ILLUME は次のループを実行します: 画像、質問、回答のプロンプトが与えられると、VLM は複数の候補の根拠をサンプリングし、人間の批評家は微調整に使用される好みの選択を通じて最小限のフィードバックを提供します。このループにより、トレーニング データが増加し、人間の意図に沿った VLM の合理化機能が徐々に切り出されます。私たちの徹底的な実験は、ILLUME が標準の監視付き微調整と競合する一方で、使用するトレーニング データが大幅に少なく、必要なフィードバックが最小限であることを示しています。
Bootstrapping from pre-trained language models has been proven to be an efficient approach for building vision-language models (VLM) for tasks such as image captioning or visual question answering. However, outputs of these models rarely align with user's rationales for specific answers. In order to improve this alignment and reinforce commonsense reasons, we propose a tuning paradigm based on human interactions with machine generated data. Our ILLUME executes the following loop: Given an image-question-answer prompt, the VLM samples multiple candidate rationales, and a human critic provides minimal feedback via preference selection, used for fine-tuning. This loop increases the training data and gradually carves out the VLM's rationalization capabilities that are aligned with human intend. Our exhaustive experiments demonstrate that ILLUME is competitive with standard supervised fine-tuning while using significantly fewer training data and only requiring minimal feedback.