arXiv reaDer
本質的な画像キャプション評価
Intrinsic Image Captioning Evaluation
画像のキャプションタスクは、画像から適切な説明を生成しようとしています。このタスクには、正確さ、流暢さ、多様性など、いくつかの課題があります。ただし、キャプションモデルの結果を評価する際に、これらすべてのプロパティをカバーできるメトリックはほとんどありません。このホワイトペーパーでは、まず、最新のメトリックに関する包括的な調査を行います。オートエンコーダメカニズムと単語埋め込みの研究の進歩に動機付けられて、画像キャプションの学習ベースのメトリックを提案します。これを本質的画像キャプション評価(I2CE)と呼びます。いくつかの最先端の画像キャプションモデルを選択し、最新のメトリックと提案されたI2CEの両方に関して、MSCOCOデータセットでのパフォーマンスをテストします。実験結果は、提案された方法が、意味的に類似した表現またはあまり整列されていない意味に遭遇したときに、堅牢なパフォーマンスを維持し、候補キャプションにより柔軟なスコアを与えることができることを示しています。この懸念に関して、提案された測定基準は、既存のものを補完する可能性のある、キャプション間の固有の情報に関する新しい指標として役立つ可能性があります。
The image captioning task is about to generate suitable descriptions from images. For this task there can be several challenges such as accuracy, fluency and diversity. However there are few metrics that can cover all these properties while evaluating results of captioning models.In this paper we first conduct a comprehensive investigation on contemporary metrics. Motivated by the auto-encoder mechanism and the research advances of word embeddings we propose a learning based metrics for image captioning, which we call Intrinsic Image Captioning Evaluation(I2CE). We select several state-of-the-art image captioning models and test their performances on MS COCO dataset with respects to both contemporary metrics and the proposed I2CE. Experiment results show that our proposed method can keep robust performance and give more flexible scores to candidate captions when encountered with semantic similar expression or less aligned semantics. On this concern the proposed metric could serve as a novel indicator on the intrinsic information between captions, which may be complementary to the existing ones.
updated: Mon Dec 14 2020 08:36:05 GMT+0000 (UTC)
published: Mon Dec 14 2020 08:36:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト