arXiv reaDer
TIGEr: Text-to-Image Grounding for Image Caption Evaluation
  このホワイトペーパーでは、画像キャプションシステムの自動評価のためのTIGErと呼ばれる新しいメトリックを示します。 BLEUやCIDErなどの一般的なメトリックは、参照キャプションと機械生成キャプション間のテキストマッチングのみに基づいており、参照が画像コンテンツを完全にカバーしておらず、自然言語が本質的に曖昧であるため、バイアス評価につながる可能性があります。 TIGErは、機械学習されたテキスト画像グラウンディングモデルに基づいて、キャプションが画像コンテンツをどれだけよく表現するかだけでなく、機械生成キャプションが人間生成キャプションとどれだけ一致するかに基づいてキャプション品質を評価できます。私たちの実証テストは、TIGErが他の既存のメトリックよりも人間の判断との一貫性が高いことを示しています。また、人間の判断とメトリックスコアの相関を測定することにより、キャプション評価におけるメトリックの有効性を包括的に評価します。
This paper presents a new metric called TIGEr for the automatic evaluation of image captioning systems. Popular metrics, such as BLEU and CIDEr, are based solely on text matching between reference captions and machine-generated captions, potentially leading to biased evaluations because references may not fully cover the image content and natural language is inherently ambiguous. Building upon a machine-learned text-image grounding model, TIGEr allows to evaluate caption quality not only based on how well a caption represents image content, but also on how well machine-generated captions match human-generated captions. Our empirical tests show that TIGEr has a higher consistency with human judgments than alternative existing metrics. We also comprehensively assess the metric's effectiveness in caption evaluation by measuring the correlation between human judgments and metric scores.
updated: Wed Sep 04 2019 18:43:04 GMT+0000 (UTC)
published: Wed Sep 04 2019 18:43:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト