画像キャプションの最近の進歩は、主に大規模な視覚言語の事前トレーニングによって推進されており、計算リソースとますます大規模なマルチモーダル データセットに大きく依存しています。事前トレーニング データをスケールアップする代わりに、既存のデータセットのサンプルの品質を改善することでパフォーマンスを改善できるかどうかを尋ねます。私たちは、データ キュレーションへの 2 つのアプローチを通じてこの問題を追求します。1 つは、画像とキャプションの不一致が原因で一部の例を回避する必要があると想定する方法と、不一致は画像を置き換えることで対処できると想定する方法で、状態を使用します。 -最先端の安定拡散モデル。これらのアプローチは、MS COCO と Flickr30K の BLIP モデルを使用して、微調整と少数ショット学習設定の両方で評価されます。私たちのシンプルでありながら効果的なアプローチは常にベースラインを上回っており、既存のリソースをキュレートすることで、より優れた画像キャプション モデルをトレーニングできることを示しています。最後に、Stable Diffusion モデルによって発生したエラーを理解し、テキストから画像への生成における将来の作業の方向性を強調するために、人間による調査を実施します。
Recent advances in image captioning are mainly driven by large-scale vision-language pretraining, relying heavily on computational resources and increasingly large multimodal datasets. Instead of scaling up pretraining data, we ask whether it is possible to improve performance by improving the quality of the samples in existing datasets. We pursue this question through two approaches to data curation: one that assumes that some examples should be avoided due to mismatches between the image and caption, and one that assumes that the mismatch can be addressed by replacing the image, for which we use the state-of-the-art Stable Diffusion model. These approaches are evaluated using the BLIP model on MS COCO and Flickr30K in both finetuning and few-shot learning settings. Our simple yet effective approaches consistently outperform baselines, indicating that better image captioning models can be trained by curating existing resources. Finally, we conduct a human study to understand the errors made by the Stable Diffusion model and highlight directions for future work in text-to-image generation.