arXiv reaDer
ハイパーグラフトランスフォーマー:知識ベースの視覚的質問応答のための弱く監視されたマルチホップ推論
Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering
知識ベースの視覚的質問応答(QA)は、画像コンテンツ自体を超えて視覚的に根拠のある外部知識を必要とする質問に答えることを目的としています。弱い監視下でマルチホップ推論を必要とする複雑な質問に答えることは、i)推論プロセスに監視が与えられず、ii)マルチホップ知識ファクトの高次セマンティクスをキャプチャする必要があるため、難しい問題と見なされます。この論文では、質問と知識ベースの高レベルのセマンティクスをエンコードし、それらの間の高次の関連性を学習するためのハイパーグラフの概念を紹介します。提案されたモデルであるHypergraphTransformerは、質問ハイパーグラフとクエリ対応知識ハイパーグラフを構築し、2つのハイパーグラフ間の相互関連付けと、両方のハイパーグラフ自体の内部関連付けをエンコードすることによって回答を推測します。 2つの知識ベースの視覚的QAと2つの知識ベースのテキストQAに関する広範な実験は、特にマルチホップ推論問題に対する私たちの方法の有効性を示しています。ソースコードはhttps://github.com/yujungheo/kbvqa-publicで入手できます。
Knowledge-based visual question answering (QA) aims to answer a question which requires visually-grounded external knowledge beyond image content itself. Answering complex questions that require multi-hop reasoning under weak supervision is considered as a challenging problem since i) no supervision is given to the reasoning process and ii) high-order semantics of multi-hop knowledge facts need to be captured. In this paper, we introduce a concept of hypergraph to encode high-level semantics of a question and a knowledge base, and to learn high-order associations between them. The proposed model, Hypergraph Transformer, constructs a question hypergraph and a query-aware knowledge hypergraph, and infers an answer by encoding inter-associations between two hypergraphs and intra-associations in both hypergraph itself. Extensive experiments on two knowledge-based visual QA and two knowledge-based textual QA demonstrate the effectiveness of our method, especially for multi-hop reasoning problem. Our source code is available at https://github.com/yujungheo/kbvqa-public.
updated: Fri Apr 22 2022 00:49:50 GMT+0000 (UTC)
published: Fri Apr 22 2022 00:49:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト