チャート質問応答(CQA)は、新しく提案された視覚的質問応答(VQA)タスクで、アルゴリズムはデータの視覚化に関する質問に答える必要があります。棒グラフ、円グラフ、折れ線グラフ。 CQAには、自然画像VQAアルゴリズムにはない機能が必要です。きめ細かい測定、光学式文字認識、質問と回答の両方での語彙外の単語の処理です。変更を加えないと、最新のVQAアルゴリズムはこのタスクのパフォーマンスが低下します。ここでは、画像と言語の並列反復融合(PReFIL)と呼ばれる新しいCQAアルゴリズムを提案します。 PReFILは、最初に質問と画像の機能を融合することでバイモーダル埋め込みを学習し、次にこれらの学習済み埋め込みをインテリジェントに集約して、所定の質問に答えます。そのシンプルさにもかかわらず、PReFILは、FigureQAおよびDVQAデータセットの両方で、最先端のシステムと人間のベースラインを大幅に上回っています。さらに、PReFILを使用して、グラフに関する一連の質問をすることでテーブルを再構築できることを示します。
Chart question answering (CQA) is a newly proposed visual question answering (VQA) task where an algorithm must answer questions about data visualizations, e.g. bar charts, pie charts, and line graphs. CQA requires capabilities that natural-image VQA algorithms lack: fine-grained measurements, optical character recognition, and handling out-of-vocabulary words in both questions and answers. Without modifications, state-of-the-art VQA algorithms perform poorly on this task. Here, we propose a novel CQA algorithm called parallel recurrent fusion of image and language (PReFIL). PReFIL first learns bimodal embeddings by fusing question and image features and then intelligently aggregates these learned embeddings to answer the given question. Despite its simplicity, PReFIL greatly surpasses state-of-the art systems and human baselines on both the FigureQA and DVQA datasets. Additionally, we demonstrate that PReFIL can be used to reconstruct tables by asking a series of questions about a chart.