arXiv reaDer
モデルは幻覚を見る: ビデオのキャプションにおける事実性の評価
Models See Hallucinations: Evaluating the Factuality in Video Captioning
ビデオのキャプションは、自然言語でビデオ内のイベントを説明することを目的としています。近年、多くの研究がキャプション モデルのパフォーマンスの改善に焦点を当ててきました。ただし、他のテキスト生成タスクと同様に、入力ビデオでサポートされていない事実上のエラーが発生するリスクがあります。これらの事実に基づく誤りは、生成されたテキストの品質に深刻な影響を与える可能性があり、場合によっては完全に使用できなくなることがあります。事実の一貫性は、テキストからテキストへのタスク (要約など) で多くの研究注目を集めていますが、ビジョンベースのテキスト生成のコンテキストではあまり研究されていません。この作業では、ビデオ キャプションの事実の人間による詳細な評価を行い、2 つの注釈付き事実データセットを収集します。モデル生成文の 57.0% に事実誤認があり、この分野では深刻な問題であることがわかりました。ただし、既存の評価指標は主に n-gram マッチングに基づいており、人間の事実のアノテーションとの相関はほとんどありません。さらに、ビデオキャプションの事実評価に関する以前のメトリックよりも優れた、弱く監視されたモデルベースの事実メトリック FactVC を提案します。データセットとメトリクスは、ビデオ キャプションに関する将来の研究を促進するためにリリースされます。
Video captioning aims to describe events in a video with natural language. In recent years, many works have focused on improving captioning models' performance. However, like other text generation tasks, it risks introducing factual errors not supported by the input video. These factual errors can seriously affect the quality of the generated text, sometimes making it completely unusable. Although factual consistency has received much research attention in text-to-text tasks (e.g., summarization), it is less studied in the context of vision-based text generation. In this work, we conduct a detailed human evaluation of the factuality in video captioning and collect two annotated factuality datasets. We find that 57.0% of the model-generated sentences have factual errors, indicating it is a severe problem in this field. However, existing evaluation metrics are mainly based on n-gram matching and show little correlation with human factuality annotation. We further propose a weakly-supervised, model-based factuality metric FactVC, which outperforms previous metrics on factuality evaluation of video captioning. The datasets and metrics will be released to promote future research for video captioning.
updated: Mon Mar 06 2023 08:32:50 GMT+0000 (UTC)
published: Mon Mar 06 2023 08:32:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト