arXiv reaDer
TextVQA用のポインター拡張マルチモーダルトランスフォーマーによる反復回答予測
Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA
 多くの視覚シーンには、重要な情報を伝えるテキストが含まれているため、下流の推論タスクのために画像内のテキストを理解することが不可欠です。たとえば、警告標識の深層水ラベルは、現場の危険について人々に警告します。最近の研究では、質問に答えるために画像内のテキストを読んで理解する必要があるTextVQAタスクを調査しました。ただし、TextVQAの既存のアプローチは、主に2つのモダリティのペア間のカスタムペアワイズフュージョンメカニズムに基づいており、TextVQAを分類タスクとしてキャストすることにより、単一の予測ステップに制限されています。この作業では、画像内のテキストの豊富な表現を伴うマルチモーダルトランスフォーマアーキテクチャに基づいたTextVQAタスクの新しいモデルを提案します。私たちのモデルは、モダリティ間およびイントラモダリティのコンテキストをモデル化するために自己注意が適用される共通の意味空間にそれらを埋め込むことにより、異なるモダリティを自然に均一に融合します。さらに、動的なポインタネットワークを使用した反復的な回答のデコードが可能になり、モデルが1段階分類ではなく多段階予測によって回答を形成できるようになります。このモデルは、TextVQAタスクの3つのベンチマークデータセットに対する既存のアプローチよりも大幅に優れています。
Many visual scenes contain text that carries crucial information, and it is thus essential to understand text in images for downstream reasoning tasks. For example, a deep water label on a warning sign warns people about the danger in the scene. Recent work has explored the TextVQA task that requires reading and understanding text in images to answer a question. However, existing approaches for TextVQA are mostly based on custom pairwise fusion mechanisms between a pair of two modalities and are restricted to a single prediction step by casting TextVQA as a classification task. In this work, we propose a novel model for the TextVQA task based on a multimodal transformer architecture accompanied by a rich representation for text in images. Our model naturally fuses different modalities homogeneously by embedding them into a common semantic space where self-attention is applied to model inter- and intra- modality context. Furthermore, it enables iterative answer decoding with a dynamic pointer network, allowing the model to form an answer through multi-step prediction instead of one-step classification. Our model outperforms existing approaches on three benchmark datasets for the TextVQA task by a large margin.
updated: Tue Mar 24 2020 23:59:59 GMT+0000 (UTC)
published: Thu Nov 14 2019 17:32:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト