arXiv reaDer
シンプルなトークンレベルの信頼性によりキャプションの正確性が向上
Simple Token-Level Confidence Improves Caption Correctness
キャプションが画像を正しく説明しているかどうかを判断する能力は、視覚言語理解の重要な部分です。ただし、最先端のモデルは、きめの細かい詳細の正確性を誤って解釈することが多く、生成されたキャプション内のオブジェクトの幻覚や不十分な構成推論などの出力エラーにつながります。この研究では、キャプションの正しさを評価するためのシンプルかつ驚くほど効果的な方法として、トークンレベルの信頼性 (TLC) を検討します。具体的には、画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語またはシーケンスに対する代数または学習トークンの信頼度を集計して、画像とキャプションの一貫性を推定します。事前トレーニング済みモデルからのシーケンスレベルのスコアと比較して、代数的信頼性尺度を備えた TLC は、SVO プローブの動詞理解において精度が 10% 相対的に向上し、構成推論の画像およびグループ スコアにおいては以前の最先端技術を上回っています。ワイングラウンドはそれぞれ相対的に 37% と 9% でした。トレーニング データが利用可能な場合、学習された信頼度推定器によりパフォーマンスがさらに向上し、MS COCO キャプションの物体の幻覚率が元のモデルよりも相対的に 30% 減少し、新しい最先端の状態が確立されます。
The ability to judge whether a caption correctly describes an image is a critical part of vision-language understanding. However, state-of-the-art models often misinterpret the correctness of fine-grained details, leading to errors in outputs such as hallucinating objects in generated captions or poor compositional reasoning. In this work, we explore Token-Level Confidence, or TLC, as a simple yet surprisingly effective method to assess caption correctness. Specifically, we fine-tune a vision-language model on image captioning, input an image and proposed caption to the model, and aggregate either algebraic or learned token confidences over words or sequences to estimate image-caption consistency. Compared to sequence-level scores from pretrained models, TLC with algebraic confidence measures achieves a relative improvement in accuracy by 10% on verb understanding in SVO-Probes and outperforms prior state-of-the-art in image and group scores for compositional reasoning in Winoground by a relative 37% and 9%, respectively. When training data are available, a learned confidence estimator provides further improved performance, reducing object hallucination rates in MS COCO Captions by a relative 30% over the original model and setting a new state-of-the-art.
updated: Thu May 11 2023 17:58:17 GMT+0000 (UTC)
published: Thu May 11 2023 17:58:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト