テキストコーパス、知識グラフ、および画像にまたがるマルチモーダルIRは、外部知識の視覚的質問応答(OKVQA)と呼ばれ、最近注目されています。ただし、一般的なデータセットには重大な制限があります。驚くほど多くのクエリは、クロスモーダル情報を統合する能力を評価していません。代わりに、画像から独立しているもの、推測に依存しているもの、OCRが必要なもの、または画像のみから回答できるものがあります。上記の制限に加えて、頻度ベースの推測は、列車とテストの折り畳みの間で(意図しない)広範囲にわたる回答の重複があるため、非常に効果的です。全体として、最先端のシステムがこれらの弱点を実際に推測するのではなく、いつ悪用するかを判断するのは困難です。なぜなら、それらは不透明であり、その「推論」プロセスは解釈できないからです。同様に重要な制限は、データセットがエンドツーエンドの回答検索タスクのみの定量的評価用に設計されており、入力クエリの正しい(セマンティック)解釈を評価するための準備がないことです。これに応じて、OKVQA、つまりS3(選択、置換、検索)の主要な構造イディオムを特定し、新しいデータセットを構築してそれに挑戦します。具体的には、質問者は画像内のエンティティを識別し、そのエンティティに言及している知識グラフまたはコーパスパッセージを参照することによってのみ回答できる、そのエンティティに関する質問をします。私たちの課題は、(i)構造イディオムに基づいて注釈が付けられたOKVQAのサブセットであるOKVQAS3と、(ii)ゼロから構築された新しいデータセットであるS3VQAで構成されています。また、チャレンジデータセットに明示的に対処し、最近の競合ベースラインを上回る、ニューラルであるが構造的に透過的なOKVQAシステムS3を紹介します。
Multimodal IR, spanning text corpus, knowledge graph and images, called outside knowledge visual question answering (OKVQA), is of much recent interest. However, the popular data set has serious limitations. A surprisingly large fraction of queries do not assess the ability to integrate cross-modal information. Instead, some are independent of the image, some depend on speculation, some require OCR or are otherwise answerable from the image alone. To add to the above limitations, frequency-based guessing is very effective because of (unintended) widespread answer overlaps between the train and test folds. Overall, it is hard to determine when state-of-the-art systems exploit these weaknesses rather than really infer the answers, because they are opaque and their 'reasoning' process is uninterpretable. An equally important limitation is that the dataset is designed for the quantitative assessment only of the end-to-end answer retrieval task, with no provision for assessing the correct(semantic) interpretation of the input query. In response, we identify a key structural idiom in OKVQA ,viz., S3 (select, substitute and search), and build a new data set and challenge around it. Specifically, the questioner identifies an entity in the image and asks a question involving that entity which can be answered only by consulting a knowledge graph or corpus passage mentioning the entity. Our challenge consists of (i)OKVQAS3, a subset of OKVQA annotated based on the structural idiom and (ii)S3VQA, a new dataset built from scratch. We also present a neural but structurally transparent OKVQA system, S3, that explicitly addresses our challenge dataset, and outperforms recent competitive baselines.