Visual Question Answering using Deep Learning: A Survey and Performance Analysis
視覚的質問応答(VQA)タスクは、データ処理の課題と視覚的処理および言語的処理の両方を組み合わせて、特定の画像に関する基本的な「常識」の質問に答えます。自然言語の画像と質問が与えられると、VQAシステムは、画像の視覚的要素とテキストの質問から収集された推論を使用して、それに対する正しい答えを見つけようとします。この調査では、VQAドメインでリリースされた最近のデータセットについて説明し、さまざまなタイプの質問形式と機械学習モデルの堅牢性を扱います。次に、VQAデータセットに対して有望な結果を示した新しい深層学習モデルについて説明します。最後に、バニラVQAモデル、Stacked Attention Network、VQA Challenge2017の勝者モデルで計算された結果の一部を紹介して説明します。また、課題と今後の研究の方向性とともに詳細な分析を提供します。
The Visual Question Answering (VQA) task combines challenges for processing data with both Visual and Linguistic processing, to answer basic `common sense' questions about given images. Given an image and a question in natural language, the VQA system tries to find the correct answer to it using visual elements of the image and inference gathered from textual questions. In this survey, we cover and discuss the recent datasets released in the VQA domain dealing with various types of question-formats and robustness of the machine-learning models. Next, we discuss about new deep learning models that have shown promising results over the VQA datasets. At the end, we present and discuss some of the results computed by us over the vanilla VQA model, Stacked Attention Network and the VQA Challenge 2017 winner model. We also provide the detailed analysis along with the challenges and future research directions.
updated: Wed Dec 23 2020 01:11:29 GMT+0000 (UTC)
published: Tue Aug 27 2019 07:03:03 GMT+0000 (UTC)
