arXiv reaDer
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering
高速アイトラッカーを使用して収集された視覚的質問応答(VQA)中の画像と質問の両方について、マルチモーダルな人間の視線の新しい49人の参加者データセットであるVQA-MHUGを紹介します。データセットを使用して、5つの最先端のVQAモデルによって学習された人間と神経の注意戦略の類似性を分析します:グリッドまたは領域機能のいずれかを備えたモジュラー共同注意ネットワーク(MCAN)、Pythia、Bilinear Attention Network(BAN) 、およびマルチモーダル因数分解双線形プーリングネットワーク(MFB)。以前の作業は画像モダリティの研究に焦点を当てていましたが、私たちの分析は、すべてのモデルで、テキストに対する人間の注意とのより高い相関がVQAパフォーマンスの重要な予測因子であることを初めて示しています。この発見は、VQAのパフォーマンスを向上させる可能性を示し、同時に、VQAを含むが、それを超える可能性のある、視覚および言語タスクのアーキテクチャへのニューラルテキスト注意メカニズムとそれらの統合に関するさらなる研究を必要としています。
We present VQA-MHUG - a novel 49-participant dataset of multimodal human gaze on both images and questions during visual question answering (VQA) collected using a high-speed eye tracker. We use our dataset to analyze the similarity between human and neural attentive strategies learned by five state-of-the-art VQA models: Modular Co-Attention Network (MCAN) with either grid or region features, Pythia, Bilinear Attention Network (BAN), and the Multimodal Factorized Bilinear Pooling Network (MFB). While prior work has focused on studying the image modality, our analyses show - for the first time - that for all models, higher correlation with human attention on text is a significant predictor of VQA performance. This finding points at a potential for improving VQA performance and, at the same time, calls for further research on neural text attention mechanisms and their integration into architectures for vision and language tasks, including but potentially also beyond VQA.
updated: Mon Sep 27 2021 15:06:10 GMT+0000 (UTC)
published: Mon Sep 27 2021 15:06:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト