ビジュアル質問応答 (VQA) には、インタラクティブな方法でインターネットをよりアクセスしやすくする可能性があり、画像が見えない人でも画像について質問できるようになります。しかし、視覚障害者や弱視の人は、画像が表示されるコンテキストを組み込んだ画像説明を好むことが複数の研究で示されていますが、現在の VQA データセットは単独の画像に焦点を当てています。私たちは、VQA モデルはコンテキストを考慮しない限り、人々のニーズを満たすのに完全には成功しないと主張します。異なるコンテキスト間の区別をさらに動機付け、分析するために、画像とコンテキスト、特に Web サイトの種類 (ショッピング Web サイトなど) を組み合わせる VQA データセットである Context-VQA を導入します。質問の種類は文脈によって体系的に異なることがわかりました。たとえば、旅行のコンテキストで表示された画像は、「どこ?」という印象を 2 倍も集めます。ソーシャル メディアやニュース上の質問や画像は、「誰?」という質問を 2.8 倍と 1.8 倍集めます。平均よりも質問が多かった。また、参加者が画像を見ることができない場合、コンテキスト効果が特に重要であることもわかりました。これらの結果は、コンテキストが尋ねられる質問の種類に影響を与えること、特にアクセシビリティ設定において人々のニーズをよりよく満たすには、VQA モデルがコンテキストに依存する必要があることを示しています。
Visual question answering (VQA) has the potential to make the Internet more accessible in an interactive way, allowing people who cannot see images to ask questions about them. However, multiple studies have shown that people who are blind or have low-vision prefer image explanations that incorporate the context in which an image appears, yet current VQA datasets focus on images in isolation. We argue that VQA models will not fully succeed at meeting people's needs unless they take context into account. To further motivate and analyze the distinction between different contexts, we introduce Context-VQA, a VQA dataset that pairs images with contexts, specifically types of websites (e.g., a shopping website). We find that the types of questions vary systematically across contexts. For example, images presented in a travel context garner 2 times more "Where?" questions, and images on social media and news garner 2.8 and 1.8 times more "Who?" questions than the average. We also find that context effects are especially important when participants can't see the image. These results demonstrate that context affects the types of questions asked and that VQA models should be context-sensitive to better meet people's needs, especially in accessibility settings.