与えられた画像について人間と有意義な会話をすることを目的とする視覚的対話は、視覚的コンテンツ、対話履歴、および現在の質問の間の複雑な依存関係を推論するモデルを必要とする挑戦的なタスクです。グラフニューラルネットワークは最近、画像またはダイアログ内のオブジェクト間の暗黙的な関係をモデル化するために適用されています。しかし、彼らは1)対話履歴間の共参照関係と質問表現のための単語間の依存関係の重要性を無視しています。 2)完全に表現された質問に基づく画像の表現。したがって、視覚的対話のための新しい関係認識グラフオーバーグラフネットワーク(GoG)を提案します。具体的には、GoGは3つの連続したグラフで構成されています。1)ダイアログ履歴間の共参照関係をキャプチャすることを目的としたHグラフ。 2)履歴認識Q-Graph。ダイアログ履歴の共参照解決に基づいて単語間の依存関係をキャプチャすることにより、質問を完全に理解することを目的としています。 3)完全な質問表現に基づいて画像内のオブジェクト間の関係をキャプチャすることを目的とした質問対応Iグラフ。追加の機能表現モジュールとして、既存の視覚的対話モデルにGoGを追加します。実験結果は、私たちのモデルが生成的設定と識別的設定の両方で強力なベースラインを大幅に上回っていることを示しています。
Visual dialog, which aims to hold a meaningful conversation with humans about a given image, is a challenging task that requires models to reason the complex dependencies among visual content, dialog history, and current questions. Graph neural networks are recently applied to model the implicit relations between objects in an image or dialog. However, they neglect the importance of 1) coreference relations among dialog history and dependency relations between words for the question representation; and 2) the representation of the image based on the fully represented question. Therefore, we propose a novel relation-aware graph-over-graph network (GoG) for visual dialog. Specifically, GoG consists of three sequential graphs: 1) H-Graph, which aims to capture coreference relations among dialog history; 2) History-aware Q-Graph, which aims to fully understand the question through capturing dependency relations between words based on coreference resolution on the dialog history; and 3) Question-aware I-Graph, which aims to capture the relations between objects in an image based on fully question representation. As an additional feature representation module, we add GoG to the existing visual dialogue model. Experimental results show that our model outperforms the strong baseline in both generative and discriminative settings by a significant margin.