arXiv reaDer
画像のテキスト編集のためのマルチモーダルアフィニティの学習
Learning Multimodal Affinities for Textual Editing in Images
今日、私たちの日常生活でカメラが急速に採用されるにつれて、ドキュメントの画像は豊富で普及しつつあります。物理的なオブジェクトをキャプチャする自然な画像とは異なり、ドキュメント画像には、重要なセマンティクスと複雑なレイアウトを備えた大量のテキストが含まれています。この作業では、視覚的なスタイル、基になるテキストのコンテンツ、および画像内の幾何学的コンテキストを考慮して、ドキュメント画像内のテキストエンティティ間のマルチモーダル親和性を学習するための一般的な教師なし手法を考案します。次に、これらの学習したアフィニティを使用して、画像内のテキストエンティティをさまざまなセマンティックグループに自動的にクラスター化します。私たちのアプローチの中核は、親和性を適切に学習するために、テキスト要素のマルチモーダル表現で信頼性の高いペアワイズ接続を検出して活用する、ユーザーが提供する画像専用の深い最適化スキームです。私たちの手法は、さまざまなドキュメントにまたがる非常に多様な画像を操作できることを示し、画像のコンテンツ、外観、ジオメトリを操作するさまざまな編集操作への適用性を示しています。
Nowadays, as cameras are rapidly adopted in our daily routine, images of documents are becoming both abundant and prevalent. Unlike natural images that capture physical objects, document-images contain a significant amount of text with critical semantics and complicated layouts. In this work, we devise a generic unsupervised technique to learn multimodal affinities between textual entities in a document-image, considering their visual style, the content of their underlying text and their geometric context within the image. We then use these learned affinities to automatically cluster the textual entities in the image into different semantic groups. The core of our approach is a deep optimization scheme dedicated for an image provided by the user that detects and leverages reliable pairwise connections in the multimodal representation of the textual elements in order to properly learn the affinities. We show that our technique can operate on highly varying images spanning a wide range of documents and demonstrate its applicability for various editing operations manipulating the content, appearance and geometry of the image.
updated: Thu Mar 18 2021 10:09:57 GMT+0000 (UTC)
published: Thu Mar 18 2021 10:09:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト