BERTScoreなどのさまざまなテキスト生成メトリックの成功にもかかわらず、説明の多様性のために、十分な参照キャプションなしで画像キャプションを評価することは依然として困難です。このホワイトペーパーでは、画像キャプションを評価するために参照キャプションを必要としない、画像キャプションの非参照メトリックである新しいメトリックUMICを紹介します。 Vision-and-Language BERTに基づいて、対照的な学習によって否定的なキャプションを区別するようにUMICをトレーニングします。また、画像のキャプションメトリックに関する以前のベンチマークデータセット(つまり、人間の注釈)の重大な問題を観察し、生成されたキャプションに人間の注釈の新しいコレクションを導入します。新しいデータセットを含む4つのデータセットでUMICを検証し、UMICが複数の参照を必要とする以前のすべてのメトリックよりも高い相関関係を持っていることを示します。 UMICを計算するために、ベンチマークデータセットと事前トレーニング済みモデルをリリースします。
Despite the success of various text generation metrics such as BERTScore, it is still difficult to evaluate the image captions without enough reference captions due to the diversity of the descriptions. In this paper, we introduce a new metric UMIC, an Unreferenced Metric for Image Captioning which does not require reference captions to evaluate image captions. Based on Vision-and-Language BERT, we train UMIC to discriminate negative captions via contrastive learning. Also, we observe critical problems of the previous benchmark dataset (i.e., human annotations) on image captioning metric, and introduce a new collection of human annotations on the generated captions. We validate UMIC on four datasets, including our new dataset, and show that UMIC has a higher correlation than all previous metrics that require multiple references. We release the benchmark dataset and pre-trained models to compute the UMIC.