arXiv reaDer
知識に基づく視覚的質問の推論:深い表現の埋め込みの課題
Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding
Visual Question Answering(VQA)モデルが、画像やテキストのコンテキストを超えた入出力相関を利用して基礎となる知識を発見するように促すのに役立ちますが、既存の知識VQAデータセットは、ほとんどの場合、質問や外部の理由の収集など、クラウドソースの方法で注釈が付けられますインターネットを介してさまざまなユーザーから。知識推論の課題に加えて、アノテーターのバイアスに対処する方法も未解決のままであり、これはしばしば質問と回答の間の表面的な過剰な相関につながります。この問題に対処するために、VQAモデル評価のためのKnowledge-Routed Visual QuestionReasoningという名前の新しいデータセットを提案します。望ましいVQAモデルが画像コンテキストを正しく認識し、質問を理解し、その学習した知識を組み込む必要があることを考慮して、提案されたデータセットは、現在のディープ埋め込みモデルによって活用されるショートカット学習を遮断し、知識ベースのビジュアルの研究境界を押し上げることを目的としています質問の推論。具体的には、ビジュアルゲノムシーングラフと、他のバイアスから知識を解きほぐすための制御されたプログラムを備えた外部知識ベースの両方に基づいて、質問と回答のペアを生成します。プログラムは、シーングラフまたは知識ベースから1つまたは2つのトリプレットを選択して、多段階の推論を推進し、回答のあいまいさを回避し、回答の分布のバランスをとることができます。既存のVQAデータセットとは対照的に、知識推論を組み込むためのプログラムには、次の2つの主要な制約があります。i)複数の知識トリプレットを質問に関連付けることができますが、画像オブジェクトに関連する知識は1つだけです。これにより、VQAモデルを強制して、特定の質問のみに基づいて知識を推測するのではなく、画像を正しく認識することができます。 ii)すべての質問は異なる知識に基づいていますが、候補者の回答はトレーニングセットとテストセットの両方で同じです。
Though beneficial for encouraging the Visual Question Answering (VQA) models to discover the underlying knowledge by exploiting the input-output correlation beyond image and text contexts, the existing knowledge VQA datasets are mostly annotated in a crowdsource way, e.g., collecting questions and external reasons from different users via the internet. In addition to the challenge of knowledge reasoning, how to deal with the annotator bias also remains unsolved, which often leads to superficial over-fitted correlations between questions and answers. To address this issue, we propose a novel dataset named Knowledge-Routed Visual Question Reasoning for VQA model evaluation. Considering that a desirable VQA model should correctly perceive the image context, understand the question, and incorporate its learned knowledge, our proposed dataset aims to cutoff the shortcut learning exploited by the current deep embedding models and push the research boundary of the knowledge-based visual question reasoning. Specifically, we generate the question-answer pair based on both the Visual Genome scene graph and an external knowledge base with controlled programs to disentangle the knowledge from other biases. The programs can select one or two triplets from the scene graph or knowledge base to push multi-step reasoning, avoid answer ambiguity, and balanced the answer distribution. In contrast to the existing VQA datasets, we further imply the following two major constraints on the programs to incorporate knowledge reasoning: i) multiple knowledge triplets can be related to the question, but only one knowledge relates to the image object. This can enforce the VQA model to correctly perceive the image instead of guessing the knowledge based on the given question solely; ii) all questions are based on different knowledge, but the candidate answers are the same for both the training and test sets.
updated: Mon Dec 14 2020 00:33:44 GMT+0000 (UTC)
published: Mon Dec 14 2020 00:33:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト