Quality Estimation for Image Captions Based on Large-scale Human Evaluations
自動画像キャプションはここ数年で大幅に改善されましたが、問題はまだ解決されていません。最先端のモデルが実際に使用されると、依然として低品質のキャプションが生成されることがよくあります。この論文では、画像キャプションの品質評価 (QE) のタスクに焦点を当てています。これは、人間の視点からキャプションの品質をモデル化し、グラウンド トゥルースの参照にアクセスすることなく、予測時に適用して検出することができるようにします。これまで見たことのない画像に作成された低品質のキャプション。このタスクでは、クラウドソーシングされたユーザーから大まかなキャプション アノテーションを収集する人間による評価プロセスを開発します。このプロセスは、600k 以上のキャプション品質評価にまたがる大規模なデータセットの収集に使用されます。次に、収集した評価の品質を慎重に検証し、この新しい QE タスクのベースライン モデルを確立します。最後に、訓練された評価者から詳細なキャプション品質の注釈をさらに収集し、それらを使用して、大まかな評価で訓練された QE モデルが低品質の画像キャプションを効果的に検出して除外できることを示し、それによってキャプション システムのユーザー エクスペリエンスを向上させます。
Automatic image captioning has improved significantly over the last few years, but the problem is far from being solved, with state of the art models still often producing low quality captions when used in the wild. In this paper, we focus on the task of Quality Estimation (QE) for image captions, which attempts to model the caption quality from a human perspective and without access to ground-truth references, so that it can be applied at prediction time to detect low-quality captions produced on previously unseen images. For this task, we develop a human evaluation process that collects coarse-grained caption annotations from crowdsourced users, which is then used to collect a large scale dataset spanning more than 600k caption quality ratings. We then carefully validate the quality of the collected ratings and establish baseline models for this new QE task. Finally, we further collect fine-grained caption quality annotations from trained raters, and use them to demonstrate that QE models trained over the coarse ratings can effectively detect and filter out low-quality image captions, thereby improving the user experience from captioning systems.
updated: Tue Jun 01 2021 19:03:27 GMT+0000 (UTC)
published: Sun Sep 08 2019 06:55:53 GMT+0000 (UTC)
