質問により正確に答え、多様な説明を生成できる、新しいマルチモーダルで解釈可能な VQA モデルを提示します。研究者は、モデルの決定を説明するために人間が読めるきめ細かい自然言語文を生成できるいくつかの方法を提案しましたが、これらの方法は画像内の情報のみに焦点を当てていました。理想的には、モデルは画像内外のさまざまな情報を参照して、説明を正しく生成する必要があります。これは、私たちが日常的に背景知識を使用するのと同じです。提案された方法は、外部の知識からの情報と複数の画像キャプションを組み込み、モデルが利用できる情報の多様性を高めます。この論文の貢献は、生成された結果の合理性を改善するために、マルチモーダル入力を使用して解釈可能な視覚的質問応答モデルを構築することです。実験結果は、回答の精度と説明の合理性に関して、私たちのモデルが最先端の方法よりも優れていることを示しています。
We present a novel multimodal interpretable VQA model that can answer the question more accurately and generate diverse explanations. Although researchers have proposed several methods that can generate human-readable and fine-grained natural language sentences to explain a model's decision, these methods have focused solely on the information in the image. Ideally, the model should refer to various information inside and outside the image to correctly generate explanations, just as we use background knowledge daily. The proposed method incorporates information from outside knowledge and multiple image captions to increase the diversity of information available to the model. The contribution of this paper is to construct an interpretable visual question answering model using multimodal inputs to improve the rationality of generated results. Experimental results show that our model can outperform state-of-the-art methods regarding answer accuracy and explanation rationality.