arXiv reaDer
VQA-GNN:視覚的な質問応答のためのマルチモーダルセマンティックグラフによる推論
VQA-GNN: Reasoning with Multimodal Semantic Graph for Visual Question Answering
視覚的理解には、認識と推論のシームレスな統合が必要です。画像レベルの認識(オブジェクトの検出など)を超えて、システムは概念レベルの推論(オブジェクトのコンテキストや人々の意図の推測など)を実行する必要があります。ただし、既存の方法は画像レベルの特徴をモデル化するだけであり、知識グラフ(KG)などの背景概念でそれらを根拠づけたり推論したりすることはありません。本研究では、画像レベルの情報と概念的知識を統合してシーンの共同推論を実行する、新しい視覚的質問応答方法であるVQA-GNNを提案します。具体的には、質問と画像のペアを指定して、画像からシーングラフを作成し、ConceptNetから関連する言語サブグラフとVisualGenomeから視覚サブグラフを取得し、これら3つのグラフと質問を1つの結合グラフであるマルチモーダルセマンティックグラフに統合します。次に、VQA-GNNは、マルチモーダルセマンティックグラフによってキャプチャされたさまざまなモダリティにわたってメッセージと理由を集約することを学習します。 VCRタスクの評価では、この方法は前のシーングラフベースのTrans-VLモデルを4%以上上回り、Trans-VLを融合したモデルであるVQA-GNN-Largeは、最先端技術をさらに2向上させます。 %、提出時にVCRリーダーボードのトップに到達。この結果は、視覚的理解のための画像レベルの認識を超えた概念的推論を実行する上でのモデルの有効性を示唆しています。最後に、私たちのモデルが、VQAタスクの視覚的およびテキスト的知識ドメイン全体で解釈可能性を提供する最初の作業であることを示します。
Visual understanding requires seamless integration between recognition and reasoning: beyond image-level recognition (e.g., detecting objects), systems must perform concept-level reasoning (e.g., inferring the context of objects and intents of people). However, existing methods only model the image-level features, and do not ground them and reason with background concepts such as knowledge graphs (KGs). In this work, we propose a novel visual question answering method, VQA-GNN, which unifies the image-level information and conceptual knowledge to perform joint reasoning of the scene. Specifically, given a question-image pair, we build a scene graph from the image, retrieve a relevant linguistic subgraph from ConceptNet and visual subgraph from VisualGenome, and unify these three graphs and the question into one joint graph, multimodal semantic graph. Our VQA-GNN then learns to aggregate messages and reason across different modalities captured by the multimodal semantic graph. In the evaluation on the VCR task, our method outperforms the previous scene graph-based Trans-VL models by over 4%, and VQA-GNN-Large, our model that fuses a Trans-VL further improves the state of the art by 2%, attaining the top of the VCR leaderboard at the time of submission. This result suggests the efficacy of our model in performing conceptual reasoning beyond image-level recognition for visual understanding. Finally, we demonstrate that our model is the first work to provide interpretability across visual and textual knowledge domains for the VQA task.
updated: Mon May 23 2022 17:55:34 GMT+0000 (UTC)
published: Mon May 23 2022 17:55:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト