制御されたタスクの成功により、生成モデルは人道的アプリケーションにますます適用されています[1,2]。この論文では、気候変動に起因する洪水の結果を示す条件付き生成モデルの評価に焦点を当て、この問題に対する国民の関心と認識を促しています。条件付き生成モデルのさまざまなモードのリアリズムを比較するためのメトリックが存在しないため、自動化された人間ベースの評価方法をいくつか提案します。これを行うには、いくつかの既存のメトリックを適合させ、自動化されたメトリックをゴールドスタンダードの人間の評価に対して評価します。補助分類器に先行する中間Inception-V3レイヤーからの埋め込みでFréchetInception Distance(FID)を使用すると、人間のリアリズムに最も相関する結果が生成されることがわかります。人間に関連した自動評価指標を確立するには単独では不十分ですが、この作業により、人間と自動の生成的評価手順との間のギャップを埋めることができると考えています。
With success on controlled tasks, generative models are being increasingly applied to humanitarian applications [1,2]. In this paper, we focus on the evaluation of a conditional generative model that illustrates the consequences of climate change-induced flooding to encourage public interest and awareness on the issue. Because metrics for comparing the realism of different modes in a conditional generative model do not exist, we propose several automated and human-based methods for evaluation. To do this, we adapt several existing metrics, and assess the automated metrics against gold standard human evaluation. We find that using Fréchet Inception Distance (FID) with embeddings from an intermediary Inception-V3 layer that precedes the auxiliary classifier produces results most correlated with human realism. While insufficient alone to establish a human-correlated automatic evaluation metric, we believe this work begins to bridge the gap between human and automated generative evaluation procedures.