Question-Agnostic Attention for Visual Question Answering
Visual Question Answering(VQA)モデルは、注意メカニズムを使用して、特定の質問への回答に最も関連する画像の場所を発見します。この目的のために、比較的単純な操作(たとえば、線形和)からより複雑な操作(たとえば、ブロック)に至るまで、いくつかのマルチモーダル融合戦略が提案されています。結果のマルチモーダル表現は、視覚的特徴と意味論的特徴の間の相互作用をキャプチャするための中間特徴空間を定義します。これは、画像コンテンツに選択的に焦点を合わせるのに役立ちます。この論文では、既存の質問に依存する注意メカニズムを補完する、質問にとらわれない注意メカニズムを提案します。私たちが提案するモデルは、オブジェクトインスタンスを解析して「オブジェクトマップ」を取得し、このマップを視覚的特徴に適用して、質問にとらわれない注意(QAA)特徴を生成します。エンドツーエンドで学習される質問依存の注意アプローチとは対照的に、提案されたQAAは質問固有のトレーニングを含まず、一般的な軽量の前処理ステップとして既存のほとんどすべてのVQAモデルに簡単に含めることができます。これにより、トレーニングの計算オーバーヘッドが最小限になります。さらに、QAAは、質問に依存する注意と組み合わせて使用すると、学習した注意の表現では見落とされている可能性のあるオブジェクトを含む領域にモデルが集中できるようになります。 VQAv1、VQAv2、およびTDIUCデータセットの広範な評価を通じて、補完的なQAAを組み込むことにより、最先端のVQAモデルのパフォーマンスが向上し、単純化したVQAモデルが大幅に向上し、高度に洗練されたフュージョンと同等のパフォーマンスを実現できることがわかります戦略。
Visual Question Answering (VQA) models employ attention mechanisms to discover image locations that are most relevant for answering a specific question. For this purpose, several multimodal fusion strategies have been proposed, ranging from relatively simple operations (e.g., linear sum) to more complex ones (e.g., Block). The resulting multimodal representations define an intermediate feature space for capturing the interplay between visual and semantic features, that is helpful in selectively focusing on image content. In this paper, we propose a question-agnostic attention mechanism that is complementary to the existing question-dependent attention mechanisms. Our proposed model parses object instances to obtain an `object map' and applies this map on the visual features to generate Question-Agnostic Attention (QAA) features. In contrast to question-dependent attention approaches that are learned end-to-end, the proposed QAA does not involve question-specific training, and can be easily included in almost any existing VQA model as a generic light-weight pre-processing step, thereby adding minimal computation overhead for training. Further, when used in complement with the question-dependent attention, the QAA allows the model to focus on the regions containing objects that might have been overlooked by the learned attention representation. Through extensive evaluation on VQAv1, VQAv2 and TDIUC datasets, we show that incorporating complementary QAA allows state-of-the-art VQA models to perform better, and provides significant boost to simplistic VQA models, enabling them to performance on par with highly sophisticated fusion strategies.
updated: Sun Sep 06 2020 03:52:27 GMT+0000 (UTC)
published: Fri Aug 09 2019 03:03:23 GMT+0000 (UTC)
