Relation-Aware Graph Attention Network for Visual Question Answering
  画像に関する意味的に複雑な質問に答えるために、視覚的質問応答(VQA)モデルは、画像内の視覚シーン、特に異なるオブジェクト間のインタラクティブなダイナミクスを完全に理解する必要があります。質問に適応する関係表現を学習するために、各画像をグラフにエンコードし、グラフ注意メカニズムを介してマルチタイプのオブジェクト間関係をモデル化する関係認識グラフ注目ネットワーク(ReGAT)を提案します。 2種類の視覚的なオブジェクトの関係が調査されます。(i)オブジェクト間の幾何学的位置と意味的相互作用を表す明示的な関係。 (ii)画像領域間の隠れたダイナミクスをキャプチャする暗黙の関係。実験は、ReGATがVQA 2.0およびVQA-CP v2データセットの両方で従来の最先端のアプローチよりも優れていることを示しています。さらに、ReGATは既存のVQAアーキテクチャと互換性があり、VQAのモデルパフォーマンスを向上させる汎用関係エンコーダーとして使用できることを示します。
In order to answer semantically-complicated questions about an image, a Visual Question Answering (VQA) model needs to fully understand the visual scene in the image, especially the interactive dynamics between different objects. We propose a Relation-aware Graph Attention Network (ReGAT), which encodes each image into a graph and models multi-type inter-object relations via a graph attention mechanism, to learn question-adaptive relation representations. Two types of visual object relations are explored: (i) Explicit Relations that represent geometric positions and semantic interactions between objects; and (ii) Implicit Relations that capture the hidden dynamics between image regions. Experiments demonstrate that ReGAT outperforms prior state-of-the-art approaches on both VQA 2.0 and VQA-CP v2 datasets. We further show that ReGAT is compatible to existing VQA architectures, and can be used as a generic relation encoder to boost the model performance for VQA.
updated: Wed Oct 09 2019 18:34:49 GMT+0000 (UTC)
published: Fri Mar 29 2019 01:24:19 GMT+0000 (UTC)
