テキストの画像記述を条件とする生成的敵対的ネットワークは、リアルに見える画像を生成することができます。ただし、現在の方法では、異機種混在ドメインからの複雑な画像キャプションに基づいて画像を生成するのに苦労しています。さらに、これらのテキストからイメージへのモデルを定量的に評価することは困難です。ほとんどの評価指標はイメージの品質のみを判断し、イメージとそのキャプションの適合性は判断しないためです。これらの課題に対処するために、画像内の個々のオブジェクトを明示的にモデル化する新しいモデルと、画像のキャプションが与えられた画像を具体的に評価するセマンティックオブジェクト精度(SOA)と呼ばれる新しい評価指標を紹介します。 SOAは事前トレーニング済みのオブジェクト検出器を使用して、生成された画像に画像のキャプションで言及されているオブジェクトが含まれているかどうかを評価します。 「通りを走る車」から生成された画像に車が含まれているかどうか。いくつかのテキスト対イメージモデルを比較するユーザー調査を実行し、SOAメトリックが人間と同じようにモデルをランク付けするのに対し、インセプションスコアなどの他のメトリックはランク付けしないことを示します。私たちの評価は、オブジェクトを明示的にモデル化するモデルが、グローバルな画像特性のみをモデル化するモデルよりも優れていることも示しています。
Generative adversarial networks conditioned on textual image descriptions are capable of generating realistic-looking images. However, current methods still struggle to generate images based on complex image captions from a heterogeneous domain. Furthermore, quantitatively evaluating these text-to-image models is challenging, as most evaluation metrics only judge image quality but not the conformity between the image and its caption. To address these challenges we introduce a new model that explicitly models individual objects within an image and a new evaluation metric called Semantic Object Accuracy (SOA) that specifically evaluates images given an image caption. The SOA uses a pre-trained object detector to evaluate if a generated image contains objects that are mentioned in the image caption, e.g. whether an image generated from "a car driving down the street" contains a car. We perform a user study comparing several text-to-image models and show that our SOA metric ranks the models the same way as humans, whereas other metrics such as the Inception Score do not. Our evaluation also shows that models which explicitly model objects outperform models which only model global image characteristics.