画像キャプションは、従来、参照画像とキャプションのペアの分布に一致する画像のキャプションを生成するタスクとして定式化されていました。ただし、標準的なキャプション データセットの参照キャプションは短く、説明されている画像を一意に識別できない場合があります。インターネットから収集した画像と代替テキストのペアでモデルを直接トレーニングすると、これらの問題はさらに悪化します。この研究では、トレーニング プロセスへの最小限の変更で、より具体的なキャプションを生成できることを示します。自己回帰キャプション モデルを微調整して、キャプションの条件付き分布と無条件分布の両方を推定することにより、分類子を使用しないガイダンスを実装します。デコード時に適用されるガイダンススケールは、p(画像)とp(画像)の最大化の間のトレードオフを制御する。標準的なグリーディ デコーディングと比較して、ガイダンス スケール 2 でのデコーディングは、CLIPScore (0.808 対 0.775) や CLIP 埋め込み空間でのキャプション/画像取得パフォーマンス (再現率 @1 44.6% 対 26.5%) などの参照フリーのメトリクスを大幅に向上させます。 、ただし、標準の参照ベースのキャプション指標は悪化します(例:CIDEr 78.6 対 126.1)。さらに、デコードプロセスをガイドするための言語モデルの使用を検討し、分類子なしのガイダンスから生じる参照なしと参照ベースのキャプションメトリクスのパレートフロンティアを超える小さな改善を得て、言語モデルから生成されるキャプションの品質を大幅に向上させます。最小限に厳選された Web データのみでトレーニングされたモデル。
Image captioning is conventionally formulated as the task of generating captions for images that match the distribution of reference image-caption pairs. However, reference captions in standard captioning datasets are short and may not uniquely identify the images they describe. These problems are further exacerbated when models are trained directly on image-alt text pairs collected from the internet. In this work, we show that it is possible to generate more specific captions with minimal changes to the training process. We implement classifier-free guidance for an autoregressive captioning model by fine-tuning it to estimate both conditional and unconditional distributions over captions. The guidance scale applied at decoding controls a trade-off between maximizing p(caption|image) and p(image|caption). Compared to standard greedy decoding, decoding with a guidance scale of 2 substantially improves reference-free metrics such as CLIPScore (0.808 vs. 0.775) and caption\toimage retrieval performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We further explore the use of language models to guide the decoding process, obtaining small improvements over the Pareto frontier of reference-free vs. reference-based captioning metrics that arises from classifier-free guidance, and substantially improving the quality of captions generated from a model trained only on minimally curated web data.