arXiv reaDer
TextCaps用の信頼性を意識した非反復マルチモーダルトランスフォーマー
Confidence-aware Non-repetitive Multimodal Transformers for TextCaps
画像を説明するとき、重要な情報を理解するには、視覚的なシーンでテキストを読むことが重要です。最近の作業では、TextCapsタスク、つまり光学式文字認識(OCR)トークンを読み取る画像キャプションを調査しています。このタスクでは、モデルがテキストを読み取り、生成されたキャプションでカバーする必要があります。既存のアプローチは、(1)読解力が低いため、正確な説明を生成できません。 (2)抽出されたすべてのOCRトークンから重要な単語を選択できない。 (3)予測されたキャプション内の単語の繰り返し。この目的のために、上記の課題に取り組むために、信頼性を意識した非反復型マルチモーダル変圧器(CNMT)を提案します。私たちのCNMTは、リーディング、推論、生成モジュールで構成されており、リーディングモジュールはより優れたOCRシステムを採用してテキストのリーディング能力を強化し、最も注目に値するトークンを選択するための信頼性を埋め込みます。キャプション内の単語の冗長性の問題に対処するために、生成モジュールには、キャプション内の繰り返し単語の予測を回避するための繰り返しマスクが含まれています。私たちのモデルは、TextCapsデータセットの最先端のモデルよりも優れており、CIDErでは81.0から93.0に向上しています。当社のソースコードは公開されています。
When describing an image, reading text in the visual scene is crucial to understand the key information. Recent work explores the TextCaps task, i.e. image captioning with reading Optical Character Recognition (OCR) tokens, which requires models to read text and cover them in generated captions. Existing approaches fail to generate accurate descriptions because of their (1) poor reading ability; (2) inability to choose the crucial words among all extracted OCR tokens; (3) repetition of words in predicted captions. To this end, we propose a Confidence-aware Non-repetitive Multimodal Transformers (CNMT) to tackle the above challenges. Our CNMT consists of a reading, a reasoning and a generation modules, in which Reading Module employs better OCR systems to enhance text reading ability and a confidence embedding to select the most noteworthy tokens. To address the issue of word redundancy in captions, our Generation Module includes a repetition mask to avoid predicting repeated word in captions. Our model outperforms state-of-the-art models on TextCaps dataset, improving from 81.0 to 93.0 in CIDEr. Our source code is publicly available.
updated: Tue Dec 08 2020 04:32:18 GMT+0000 (UTC)
published: Mon Dec 07 2020 13:20:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト