最近の画像キャプションモデルは、BLEU、CIDEr、SPICEなどの一般的な指標に基づいて印象的な結果を達成しています。ただし、生成されたキャプションと人間の注釈の重複のみを考慮する最も一般的な指標に焦点を当てると、一般的な単語やフレーズが使用される可能性があります。これは、区別がつかない、つまり、多くの類似した画像が同じキャプションを持っているということです。この論文では、類似した画像のセットと比較して再重み付けすることにより、画像キャプションの識別性を向上させることを目指しています。最初に、類似した画像のキャプションに対するキャプションの識別性を評価するために、識別性メトリック(セット間CIDEr(CIDErBtw))を提案します。私たちの測定基準は、MSCOCOデータセット内の各画像の人間による注釈が識別性に基づいて同等ではないことを示しています。ただし、以前の作品では通常、トレーニング中に人間の注釈が同等に扱われるため、特徴の少ないキャプションが生成される可能性があります。対照的に、トレーニング中の特徴に応じて、各グラウンドトゥルースキャプションの重みを変更します。さらに、ロングテールウェイト戦略を統合して、より多くの情報を含むまれな単語を強調します。同様の画像セットのキャプションを否定的な例としてサンプリングして、生成された文が一意になるようにします。最後に、広範な実験が行われ、提案されたアプローチにより、さまざまな画像キャプションベースラインの識別性(CIDErBtwおよび検索メトリックによって測定)と精度(CIDErによって測定)の両方が大幅に向上することが示されています。これらの結果は、ユーザー調査を通じてさらに確認されます。
Recent image captioning models are achieving impressive results based on popular metrics, i.e., BLEU, CIDEr, and SPICE. However, focusing on the most popular metrics that only consider the overlap between the generated captions and human annotation could result in using common words and phrases, which lacks distinctiveness, i.e., many similar images have the same caption. In this paper, we aim to improve the distinctiveness of image captions via comparing and reweighting with a set of similar images. First, we propose a distinctiveness metric -- between-set CIDEr (CIDErBtw) to evaluate the distinctiveness of a caption with respect to those of similar images. Our metric reveals that the human annotations of each image in the MSCOCO dataset are not equivalent based on distinctiveness; however, previous works normally treat the human annotations equally during training, which could be a reason for generating less distinctive captions. In contrast, we reweight each ground-truth caption according to its distinctiveness during training. We further integrate a long-tailed weight strategy to highlight the rare words that contain more information, and captions from the similar image set are sampled as negative examples to encourage the generated sentence to be unique. Finally, extensive experiments are conducted, showing that our proposed approach significantly improves both distinctiveness (as measured by CIDErBtw and retrieval metrics) and accuracy (e.g., as measured by CIDEr) for a wide variety of image captioning baselines. These results are further confirmed through a user study.