arXiv reaDer
KRISP:オープンドメイン知識ベースのVQAのための暗黙的知識と象徴的知識の統合
KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA
VQAで最も難しい質問タイプの1つは、質問に回答するために画像に存在しない外部の知識が必要な場合です。この作業では、オープンドメイン知識、つまり、質問に答えるために必要な知識がトレーニング時でもテスト時でも与えられない/注釈が付けられていない場合の設定を研究します。 2種類の知識表現と推論を利用します。まず、教師なし言語の事前トレーニングと、トランスフォーマーベースのモデルを使用した教師ありトレーニングデータから効果的に学習できる暗黙知。第二に、知識ベースにエンコードされた明示的で象徴的な知識。私たちのアプローチは、回答予測のためにトランスフォーマーモデルの強力な暗黙的推論を活用することと、知識グラフからのシンボリック表現を統合することの両方を組み合わせていますが、暗黙的な埋め込みによって明示的なセマンティクスを失うことはありません。さまざまな知識源を組み合わせて、知識ベースの質問を解決するために必要なさまざまな知識をカバーします。私たちのアプローチであるKRISP(暗黙的および記号的表現による知識推論)は、オープンドメインの知識ベースのVQAで利用可能な最大のデータセットであるOK-VQAの最先端を大幅に上回っています。モデルが暗黙知の推論をうまく活用している一方で、知識グラフを回答の語彙に明示的に接続するシンボリック回答モジュールが、メソッドのパフォーマンスにとって重要であり、まれな回答に一般化することを、広範囲にわたるアブレーションで示します。
One of the most challenging question types in VQA is when answering the question requires outside knowledge not present in the image. In this work we study open-domain knowledge, the setting when the knowledge required to answer a question is not given/annotated, neither at training nor test time. We tap into two types of knowledge representations and reasoning. First, implicit knowledge which can be learned effectively from unsupervised language pre-training and supervised training data with transformer-based models. Second, explicit, symbolic knowledge encoded in knowledge bases. Our approach combines both - exploiting the powerful implicit reasoning of transformer models for answer prediction, and integrating symbolic representations from a knowledge graph, while never losing their explicit semantics to an implicit embedding. We combine diverse sources of knowledge to cover the wide variety of knowledge needed to solve knowledge-based questions. We show our approach, KRISP (Knowledge Reasoning with Implicit and Symbolic rePresentations), significantly outperforms state-of-the-art on OK-VQA, the largest available dataset for open-domain knowledge-based VQA. We show with extensive ablations that while our model successfully exploits implicit knowledge reasoning, the symbolic answer module which explicitly connects the knowledge graph to the answer vocabulary is critical to the performance of our method and generalizes to rare answers.
updated: Sun Dec 20 2020 20:13:02 GMT+0000 (UTC)
published: Sun Dec 20 2020 20:13:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト