e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks
最近、視覚言語(VL)タスクの予測のために自然言語説明(NLE)を生成できるモデルを導入する取り組みが増えています。このようなモデルは、人間にわかりやすく包括的な説明を提供できるため、魅力的です。ただし、再利用可能な評価フレームワークの欠如とデータセットの不足により、既存の方法間の比較が不足しています。この作品では、e-ViLとe-SNLI-VEを紹介します。 e-ViLは、説明可能な視覚言語タスクのベンチマークであり、統一された評価フレームワークを確立し、VLタスクのNLEを生成する既存のアプローチの最初の包括的な比較を提供します。これは4つのモデルと3つのデータセットにまたがり、自動メトリックと人間による評価の両方を使用して、モデルによって生成された説明を評価します。 e-SNLI-VEは現在、NLEを備えた既存の最大のVLデータセットです(43万を超えるインスタンス)。また、画像とテキストの共同埋め込みを学習するUNITERと、テキスト生成に適した事前トレーニング済みの言語モデルであるGPT-2を組み合わせた新しいモデルを提案します。これは、すべてのデータセットで以前の最先端技術を大幅に上回っています。コードとデータは、から入手できます。
Recently, there has been an increasing number of efforts to introduce models capable of generating natural language explanations (NLEs) for their predictions on vision-language (VL) tasks. Such models are appealing, because they can provide human-friendly and comprehensive explanations. However, there is a lack of comparison between existing methods, which is due to a lack of re-usable evaluation frameworks and a scarcity of datasets. In this work, we introduce e-ViL and e-SNLI-VE. e-ViL is a benchmark for explainable vision-language tasks that establishes a unified evaluation framework and provides the first comprehensive comparison of existing approaches that generate NLEs for VL tasks. It spans four models and three datasets and both automatic metrics and human evaluation are used to assess model-generated explanations. e-SNLI-VE is currently the largest existing VL dataset with NLEs (over 430k instances). We also propose a new model that combines UNITER, which learns joint embeddings of images and text, and GPT-2, a pre-trained language model that is well-suited for text generation. It surpasses the previous state of the art by a large margin across all datasets. Code and data are available here:
updated: Wed Aug 18 2021 16:35:03 GMT+0000 (UTC)
published: Sat May 08 2021 18:46:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト