視覚的質問応答(VQA)深層学習システムは、強い言語の優先順位のためにトレーニングデータの表面的な統計的相関をキャプチャする傾向があり、大幅に異なる質問応答(QA)分布のテストデータに一般化できません。この問題に対処するために、正解の視覚的な説明が他の競合する回答候補よりも最も影響力のある画像領域に一致することを保証する自己批判的なトレーニング目標を導入します。影響力のある領域は、人間の視覚/テキストの説明から決定されるか、質問と回答の重要な単語から自動的に決定されます。 VQA-CPデータセットを使用してVQAの一般化タスクに対するアプローチを評価し、新しい最新の状態、つまり、テキストによる説明を使用して49.5%、自動注釈付き領域を使用して48.5%を達成します。
Visual Question Answering (VQA) deep-learning systems tend to capture superficial statistical correlations in the training data because of strong language priors and fail to generalize to test data with a significantly different question-answer (QA) distribution. To address this issue, we introduce a self-critical training objective that ensures that visual explanations of correct answers match the most influential image regions more than other competitive answer candidates. The influential regions are either determined from human visual/textual explanations or automatically from just significant words in the question and answer. We evaluate our approach on the VQA generalization task using the VQA-CP dataset, achieving a new state-of-the-art i.e., 49.5% using textual explanations and 48.5% using automatically annotated regions.