この論文は、グラフの観点から視覚的質問応答タスクにおける双線形注意ネットワークを再検討します。古典的な双線形注意ネットワークは、質問内の単語と画像内のオブジェクトの結合表現を抽出するための双線形注意マップを構築しますが、複雑な推論のために単語間の関係を完全に探索することはできません。対照的に、バイリニアグラフネットワークを開発して、単語とオブジェクトの共同埋め込みのコンテキストをモデル化します。 2種類のグラフ、つまり画像グラフと質問グラフが調査されます。イメージグラフは、検出されたオブジェクトの機能を関連するクエリワードに転送し、出力ノードが意味情報と事実情報の両方を取得できるようにします。質問グラフは、イメージグラフからのこれらの出力ノード間で情報を交換して、オブジェクト間の暗黙的かつ重要な関係を増幅します。これらの2種類のグラフは相互に連携するため、結果のモデルはオブジェクト間の関係と依存関係をモデル化でき、マルチステップ推論の実現につながります。 VQA v2.0検証データセットの実験結果は、複雑な質問を処理する方法の能力を示しています。 test-stdセットでは、最高の単一モデルが最先端のパフォーマンスを達成し、全体の精度を72.41%に高めます。
This paper revisits the bilinear attention networks in the visual question answering task from a graph perspective. The classical bilinear attention networks build a bilinear attention map to extract the joint representation of words in the question and objects in the image but lack fully exploring the relationship between words for complex reasoning. In contrast, we develop bilinear graph networks to model the context of the joint embeddings of words and objects. Two kinds of graphs are investigated, namely image-graph and question-graph. The image-graph transfers features of the detected objects to their related query words, enabling the output nodes to have both semantic and factual information. The question-graph exchanges information between these output nodes from image-graph to amplify the implicit yet important relationship between objects. These two kinds of graphs cooperate with each other, and thus our resulting model can model the relationship and dependency between objects, which leads to the realization of multi-step reasoning. Experimental results on the VQA v2.0 validation dataset demonstrate the ability of our method to handle the complex questions. On the test-std set, our best single model achieves state-of-the-art performance, boosting the overall accuracy to 72.41%.