arXiv reaDer
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge
  Visual Question Answering(VQA)は、理想的な形で、視覚と言語の共同空間で推論を研究することができ、シーン理解のAIタスクのプロキシとして機能します。ただし、これまでのほとんどのVQAベンチマークは、単純なカウント、視覚的な属性、オブジェクトの検出など、画像に含まれる以上の推論や知識を必要としない質問に焦点を当てています。このホワイトペーパーでは、知識ベースの視覚的な質問応答のタスクに対処し、OK-VQAと呼ばれるベンチマークを提供します。このベンチマークでは、画像コンテンツが質問に答えるのに十分ではなく、外部の知識リソースに依存する方法を奨励します。新しいデータセットには、回答するために外部の知識を必要とする14,000以上の質問が含まれています。この新しい設定では、最先端のVQAモデルのパフォーマンスが大幅に低下することがわかります。分析の結果、ナレッジベースのVQAタスクは、以前のナレッジベースのVQAデータセットと比較して、多様で、困難で、大きいことがわかりました。このデータセットにより、研究者がこの領域での研究のための新しい道を開くことができることを願っています。データセットをダウンロードして参照するには、http://okvqa.allenai.orgを参照してください。
Visual Question Answering (VQA) in its ideal form lets us study reasoning in the joint space of vision and language and serves as a proxy for the AI task of scene understanding. However, most VQA benchmarks to date are focused on questions such as simple counting, visual attributes, and object detection that do not require reasoning or knowledge beyond what is in the image. In this paper, we address the task of knowledge-based visual question answering and provide a benchmark, called OK-VQA, where the image content is not sufficient to answer the questions, encouraging methods that rely on external knowledge resources. Our new dataset includes more than 14,000 questions that require external knowledge to answer. We show that the performance of the state-of-the-art VQA models degrades drastically in this new setting. Our analysis shows that our knowledge-based VQA task is diverse, difficult, and large compared to previous knowledge-based VQA datasets. We hope that this dataset enables researchers to open up new avenues for research in this domain. See to download and browse the dataset.
updated: Wed Sep 04 2019 10:43:20 GMT+0000 (UTC)
published: Fri May 31 2019 20:29:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト