テキストによる説明から画像を生成することは、最近多くの関心を集めています。現在のモデルでは、鳥や人間の顔などの個々のオブジェクトの写実的な画像を生成できますが、複数のオブジェクトで画像を合成することは依然として非常に困難です。このホワイトペーパーでは、Text-to-Image(T2I)合成とVisual Question Answering(VQA)を組み合わせて、VQA 2.0データセットを活用することにより、生成された画像の画質と画像とテキストの配置を改善する効果的な方法を提案します。質問と回答(QA)のペアを連結して追加のトレーニングサンプルを作成し、標準のVQAモデルを使用して、T2Iモデルに補助学習信号を提供します。 QAペアから生成された画像は、リアルに見えるようにし、さらに外部VQAの損失を最小限に抑えることをお勧めします。私たちの方法は、FIDを27.84から25.38に下げ、R-precを上げます。ベースラインと比較した場合、83.82%から84.79%になります。これは、標準のVQAモデルを使用してT2I合成を正常に改善できることを示しています。
Generating images from textual descriptions has recently attracted a lot of interest. While current models can generate photo-realistic images of individual objects such as birds and human faces, synthesising images with multiple objects is still very difficult. In this paper, we propose an effective way to combine Text-to-Image (T2I) synthesis with Visual Question Answering (VQA) to improve the image quality and image-text alignment of generated images by leveraging the VQA 2.0 dataset. We create additional training samples by concatenating question and answer (QA) pairs and employ a standard VQA model to provide the T2I model with an auxiliary learning signal. We encourage images generated from QA pairs to look realistic and additionally minimize an external VQA loss. Our method lowers the FID from 27.84 to 25.38 and increases the R-prec. from 83.82% to 84.79% when compared to the baseline, which indicates that T2I synthesis can successfully be improved using a standard VQA model.