REO-Relevance, Extraness, Omission: A Fine-grained Evaluation for Image Captioning
  BLEUやCIDErなどの画像キャプションシステムの評価に使用される一般的なメトリックは、システムの全体的な有効性を評価する単一のスコアを提供します。このスコアは、多くの場合、特定のシステムによってどのようなエラーが発生したかを示すのに十分な情報ではありません。この研究では、画像キャプションシステムのパフォーマンスを自動的に測定するための詳細な評価方法REOを提示します。 REOは、3つの観点からキャプションの品質を評価します。1)グラウンドトゥルースとの関連性、2)グラウンドトゥルースとは無関係なコンテンツの余分さ、3)画像および人間の参照の要素の省略。 3つのベンチマークデータセットでの実験は、この方法が人間の判断とより高い一貫性を達成し、代替メトリックよりも直感的な評価結果を提供することを示しています。
Popular metrics used for evaluating image captioning systems, such as BLEU and CIDEr, provide a single score to gauge the system's overall effectiveness. This score is often not informative enough to indicate what specific errors are made by a given system. In this study, we present a fine-grained evaluation method REO for automatically measuring the performance of image captioning systems. REO assesses the quality of captions from three perspectives: 1) Relevance to the ground truth, 2) Extraness of the content that is irrelevant to the ground truth, and 3) Omission of the elements in the images and human references. Experiments on three benchmark datasets demonstrate that our method achieves a higher consistency with human judgments and provides more intuitive evaluation results than alternative metrics.
updated: Thu Sep 05 2019 05:44:46 GMT+0000 (UTC)
published: Thu Sep 05 2019 05:44:46 GMT+0000 (UTC)
