画像とテキストのマッチング(ITM)は、視覚と言語(VL)モデルの品質を評価するための一般的なタスクです。ただし、既存のITMベンチマークには重大な制限があります。それらには、データ構築プロセス自体に起因する、多くの欠落した対応があります。たとえば、キャプションは1つの画像とのみ一致しますが、キャプションは他の同様の画像と一致する可能性があり、その逆も可能です。大規模なフォールスネガティブを修正するために、マシンと人間のアノテーターとの欠落している関連付けを提供することにより、拡張COCO検証(ECCV)キャプションデータセットを構築します。アノテーションプロセスには、さまざまなプロパティを備えた5つの最先端のITMモデルを採用しています。私たちのデータセットは、元のMS-COCOと比較して、x3.6の正の画像とキャプションの関連付けおよびx8.5のキャプションと画像の関連付けを提供します。また、人気のあるRecall @ K(R @ K)ではなく、有益なランキングベースのメトリックmAP@Rを使用することを提案します。既存および提案されたベンチマークで既存の25VLモデルを再評価します。 COCO 1K R @ K、COCO 5K R @ K、CxC R @ 1などの既存のベンチマークは相互に高い相関関係にあり、ECCV mAP@Rに移行するとランキングが変化することがわかりました。最後に、マシンアノテーターの選択によってもたらされるバイアスの影響について詳しく説明します。ソースコードとデータセットはhttps://github.com/naver-ai/eccv-captionで入手できます。
Image-Text matching (ITM) is a common task for evaluating the quality of Vision and Language (VL) models. However, existing ITM benchmarks have a significant limitation. They have many missing correspondences, originating from the data construction process itself. For example, a caption is only matched with one image although the caption can be matched with other similar images and vice versa. To correct the massive false negatives, we construct the Extended COCO Validation (ECCV) Caption dataset by supplying the missing associations with machine and human annotators. We employ five state-of-the-art ITM models with diverse properties for our annotation process. Our dataset provides x3.6 positive image-to-caption associations and x8.5 caption-to-image associations compared to the original MS-COCO. We also propose to use an informative ranking-based metric mAP@R, rather than the popular Recall@K (R@K). We re-evaluate the existing 25 VL models on existing and proposed benchmarks. Our findings are that the existing benchmarks, such as COCO 1K R@K, COCO 5K R@K, CxC R@1 are highly correlated with each other, while the rankings change when we shift to the ECCV mAP@R. Lastly, we delve into the effect of the bias introduced by the choice of machine annotator. Source code and dataset are available at https://github.com/naver-ai/eccv-caption