GPT-2 / 3などの生成言語モデル(LM)は、驚くべき品質のテキストを生成するように促すことができます。それらはテキストプロンプト生成用に設計されていますが、画像などのテキストを超えたモダリティによって生成プロセスをどのように導くことができるかは未解決の問題です。この作業では、MAGIC(CLIPを使用したiMAgeガイド付きテキスト生成)と呼ばれるトレーニング不要のフレームワークを提案します。これは、生成プロセスでビジュアルコントロールをプラグインし、LMがゼロでマルチモーダルタスク(画像キャプションなど)を実行できるようにするためのものです。ショットマナー。 MAGICは、シンプルでありながら効率的なプラグアンドプレイフレームワークであり、既製のLM(GPT-2)と画像テキストマッチングモデル(CLIP)を直接組み合わせて、画像に基づいたテキスト生成を実現します。デコード中、MAGICは、マジックスコアと呼ばれるCLIP誘導スコアを導入することにより、LMの生成に影響を与えます。これは、生成された結果を、以前に生成されたコンテキストに一貫性を保ちながら、特定の画像に意味的に関連するように正規化します。特に、提案された復号化スキームは、勾配更新操作を含まないため、計算効率が高い。ゼロショット画像キャプションの挑戦的なタスクでは、MAGICは、ほぼ27倍のデコード速度で、最先端の方法を大幅に上回っています。 MAGICは柔軟なフレームワークであり、理論的には画像の接地を組み込んだテキスト生成タスクと互換性があります。実験では、画像とテキストプロンプトの両方が与えられた場合に、視覚的に根拠のあるストーリー生成も実行できることを示します。
Generative language models (LMs) such as GPT-2/3 can be prompted to generate text with remarkable quality. While they are designed for text-prompted generation, it remains an open question how the generation process could be guided by modalities beyond text such as images. In this work, we propose a training-free framework, called MAGIC (iMAge-Guided text generatIon with CLIP), for plugging in visual controls in the generation process and enabling LMs to perform multimodal tasks (e.g., image captioning) in a zero-shot manner. MAGIC is a simple yet efficient plug-and-play framework, which directly combines an off-the-shelf LM (i.e., GPT-2) and an image-text matching model (i.e., CLIP) for image-grounded text generation. During decoding, MAGIC influences the generation of the LM by introducing a CLIP-induced score, called magic score, which regularizes the generated result to be semantically related to a given image while being coherent to the previously generated context. Notably, the proposed decoding scheme does not involve any gradient update operation, therefore being computationally efficient. On the challenging task of zero-shot image captioning, MAGIC outperforms the state-of-the-art method by notable margins with a nearly 27 times decoding speedup. MAGIC is a flexible framework and is theoretically compatible with any text generation tasks that incorporate image grounding. In the experiments, we showcase that it is also capable of performing visually grounded story generation given both an image and a text prompt.