arXiv reaDer
プロンプトによる制御可能な画像キャプション
Controllable Image Captioning via Prompting
画像キャプションの目覚ましい進歩にもかかわらず、既存のキャプション作成者は通常、所望の画像キャプションを生成するための制御可能な機能を欠いています。たとえば、大まかな方法または詳細な方法で、事実または感情的な観点で画像を説明するなどです。統一されたモデルは、さまざまなドメインで適切に機能し、複数のスタイルを自由に切り替えることができます。このような制御可能な機能は、プロンプト学習を画像キャプションフレームワークに埋め込むことによって実現されます。具体的には、事前トレーニング済みの画像キャプショナーを微調整する一連のプロンプトを設計します。これらのプロンプトにより、モデルは、各ドメインでパフォーマンスを低下させることなく、共同トレーニングのために異なるドメインから定型化されたデータを吸収できます。さらに、連続単語埋め込み空間で学習可能なベクトルを使用してプロンプトを最適化し、ヒューリスティックなプロンプト エンジニアリングを回避し、優れたパフォーマンスを発揮します。推論段階では、モデルは対応するプロンプトを選択することで、目的の定型化されたキャプションを生成できます。広範な実験により、提案された方法の可制御能力が検証されます。特に、統合モデルを使用して、COCO Karpathy スプリットと TextCaps を含む 2 つの多様な画像キャプション ベンチマークで優れたパフォーマンスを達成しています。
Despite the remarkable progress of image captioning, existing captioners typically lack the controllable capability to generate desired image captions, e.g., describing the image in a rough or detailed manner, in a factual or emotional view, etc. In this paper, we show that a unified model is qualified to perform well in diverse domains and freely switch among multiple styles. Such a controllable capability is achieved by embedding the prompt learning into the image captioning framework. To be specific, we design a set of prompts to fine-tune the pre-trained image captioner. These prompts allow the model to absorb stylized data from different domains for joint training, without performance degradation in each domain. Furthermore, we optimize the prompts with learnable vectors in the continuous word embedding space, avoiding the heuristic prompt engineering and meanwhile exhibiting superior performance. In the inference stage, our model is able to generate desired stylized captions by choosing the corresponding prompts. Extensive experiments verify the controllable capability of the proposed method. Notably, we achieve outstanding performance on two diverse image captioning benchmarks including COCO Karpathy split and TextCaps using a unified model.
updated: Sun Dec 04 2022 11:59:31 GMT+0000 (UTC)
published: Sun Dec 04 2022 11:59:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト