arXiv reaDer
視覚的意味論を超えて:画像理解におけるシーンテキストの役割の調査
Beyond Visual Semantics: Exploring the Role of Scene Text in Image Understanding
 ビジュアルおよびシーンテキストコンテンツを含む画像は、日常生活のどこにでもあります。ただし、現在の画像解釈システムは、視覚的な機能のみを使用することにほとんど制限されており、シーンのテキストコンテンツを活用することを怠っています。本論文では、画像のロバストなセマンティック解釈のために、シーンテキストと視覚チャネルを併用することを提案します。視覚的およびシーンテキストキューを抽出およびエンコードするだけでなく、それらの相互作用をモデル化して、より豊かなセマンティクスを備えたコンテキストジョイント埋め込みを生成します。このように生成されたコンテキスト埋め込みは、シーンテキストコンテンツを含むマルチメディア画像の検索および分類タスクに適用され、その有効性が実証されます。検索フレームワークでは、学習したテキスト視覚セマンティック表現をシーンテキストキューで補強し、セマンティック埋め込み中に発生した可能性のある語彙ミスを軽減します。シーンテキストの無関係または誤った認識に対処するために、クエリベースの注意をテキストチャネルにも適用します。視覚的なセマンティクスとシーンテキストを含むマルチチャネルアプローチが、最新技術をどのように改善するかを示します。
Images with visual and scene text content are ubiquitous in everyday life. However, current image interpretation systems are mostly limited to using only the visual features, neglecting to leverage the scene text content. In this paper, we propose to jointly use scene text and visual channels for robust semantic interpretation of images. We do not only extract and encode visual and scene text cues, but also model their interplay to generate a contextual joint embedding with richer semantics. The contextual embedding thus generated is applied to retrieval and classification tasks on multimedia images, with scene text content, to demonstrate its effectiveness. In the retrieval framework, we augment our learned text-visual semantic representation with scene text cues, to mitigate vocabulary misses that may have occurred during the semantic embedding. To deal with irrelevant or erroneous recognition of scene text, we also apply query-based attention to our text channel. We show how the multi-channel approach, involving visual semantics and scene text, improves upon state of the art.
updated: Wed Dec 04 2019 11:17:25 GMT+0000 (UTC)
published: Sat May 25 2019 15:53:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト