画像と質問のペアを理解するための協調的推論は、非常に重要ですが、解釈可能な視覚的質問応答システムでは未開拓のトピックです。非常に最近の研究では、明示的な構成プロセスを使用して質問に埋め込まれた複数のサブタスクを組み立てようとしましたが、それらのモデルは、有効な推論プロセスを取得するために注釈または手作りのルールに大きく依存しており、これにより、重いワークロードまたは構成推論のパフォーマンスが低下します。この論文では、多様で制限のない場合に画像と言語のドメインをよりよく整合させるために、質問から解析された依存関係ツリーに対してグローバルな推論を実行する新しいニューラルネットワークモデルを提案します。したがって、このモデルは解析ツリーガイド付き推論ネットワーク(PTGRN)と呼ばれます。このネットワークは、3つの共同モジュールで構成されています。i)質問から解析された各単語のローカルな視覚的証拠を活用するアテンションモジュール、ii)以前にマイニングされた証拠を構成するゲート残余構成モジュール、およびiii)構文解析木ガイド付き解析ツリーに沿ってマイニングされた証拠を渡す伝播モジュール。したがって、PTGRNは、質問駆動型の解析ツリー推論に基づいて徐々に画像キューを導き出す、解釈可能な視覚的質問応答(VQA)システムを構築することができます。リレーショナルデータセットの実験は、現在の最先端のVQAメソッドに対するPTGRNの優位性を実証し、視覚化の結果は推論システムの説明可能な機能を強調しています。
Collaborative reasoning for understanding image-question pairs is a very critical but underexplored topic in interpretable visual question answering systems. Although very recent studies have attempted to use explicit compositional processes to assemble multiple subtasks embedded in questions, their models heavily rely on annotations or handcrafted rules to obtain valid reasoning processes, which leads to either heavy workloads or poor performance on compositional reasoning. In this paper, to better align image and language domains in diverse and unrestricted cases, we propose a novel neural network model that performs global reasoning on a dependency tree parsed from the question; thus, our model is called a parse-tree-guided reasoning network (PTGRN). This network consists of three collaborative modules: i) an attention module that exploits the local visual evidence of each word parsed from the question, ii) a gated residual composition module that composes the previously mined evidence, and iii) a parse-tree-guided propagation module that passes the mined evidence along the parse tree. Thus, PTGRN is capable of building an interpretable visual question answering (VQA) system that gradually derives image cues following question-driven parse-tree reasoning. Experiments on relational datasets demonstrate the superiority of PTGRN over current state-of-the-art VQA methods, and the visualization results highlight the explainable capability of our reasoning system.