arXiv reaDer
シーンテキストの視覚的な質問応答
Scene Text Visual Question Answering
  現在の視覚的な質問応答データセットは、画像内のテキストによって伝えられる豊富な意味情報を考慮していません。この作業では、VQAプロセスでテキストキューとして画像に存在する高レベルのセマンティック情報を活用することの重要性を強調することを目的とする新しいデータセット、ST-VQAを提示します。このデータセットを使用して、視覚情報によって提供されるコンテキストでシーンテキストを読むことが適切な答えを推論および生成するために必要な、難易度を高める一連のタスクを定義します。推論エラーとテキスト認識モジュールの欠点の両方を考慮して、これらのタスクの新しい評価基準を提案します。さらに、新しくリリースされたデータセットへのさらなる洞察を提供する一連のベースラインメソッドを提案し、さらなる調査のためにシーンを設定しました。
Current visual question answering datasets do not consider the rich semantic information conveyed by text within an image. In this work, we present a new dataset, ST-VQA, that aims to highlight the importance of exploiting high-level semantic information present in images as textual cues in the VQA process. We use this dataset to define a series of tasks of increasing difficulty for which reading the scene text in the context provided by the visual information is necessary to reason and generate an appropriate answer. We propose a new evaluation metric for these tasks to account both for reasoning errors as well as shortcomings of the text recognition module. In addition we put forward a series of baseline methods, which provide further insight to the newly released dataset, and set the scene for further research.
updated: Wed Oct 16 2019 13:54:22 GMT+0000 (UTC)
published: Fri May 31 2019 14:47:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト