arXiv reaDer
シーン スタイル テキスト編集
Scene Style Text Editing
この作業では、元のテキストシーンを維持しながら、ソース画像のテキストコンテンツとテキストスタイルを変更する「Scene Style Text Editing (SSTE)」と呼ばれるタスクを提案します。既存の方法では、回転角度、色、フォント タイプなど、前景テキストのスタイルをきめ細かく調整することを怠っています。このタスクに取り組むために、「QuadNet」という名前の 4 つのフレームワークを提案して、潜在的な特徴空間に前景のテキスト スタイルを埋め込み、調整します。具体的には、QuadNet は、背景修復、スタイル エンコーダー、コンテンツ エンコーダー、フュージョン ジェネレーターの 4 つの部分で構成されます。背景修復はソース テキスト コンテンツを消去し、非常に本物らしいテクスチャで適切な背景を復元します。スタイル エンコーダーは、前景テキストのスタイル埋め込みを抽出します。コンテンツ エンコーダーは、コンテンツの編集を実装するために、潜在的な特徴空間でターゲット テキスト表現を提供します。融合ジェネレーターは、言及された部分から得られた情報を組み合わせて、レンダリングされたテキスト画像を生成します。実際には、私たちの方法は、文字列レベルの注釈だけで、実際のデータセットに対して有望に機能することができます。私たちの知る限りでは、私たちの研究は、潜在特徴空間での深いセマンティック編集によって前景テキストの内容とスタイルを細かく操作した最初のものです。広範な実験により、QuadNet には写真のようにリアルな前景テキストを生成し、テキスト コンテンツの編集時に現実世界のシーンでソース テキストの影を回避する機能があることが実証されています。
In this work, we propose a task called "Scene Style Text Editing (SSTE)", changing the text content as well as the text style of the source image while keeping the original text scene. Existing methods neglect to fine-grained adjust the style of the foreground text, such as its rotation angle, color, and font type. To tackle this task, we propose a quadruple framework named "QuadNet" to embed and adjust foreground text styles in the latent feature space. Specifically, QuadNet consists of four parts, namely background inpainting, style encoder, content encoder, and fusion generator. The background inpainting erases the source text content and recovers the appropriate background with a highly authentic texture. The style encoder extracts the style embedding of the foreground text. The content encoder provides target text representations in the latent feature space to implement the content edits. The fusion generator combines the information yielded from the mentioned parts and generates the rendered text images. Practically, our method is capable of performing promisingly on real-world datasets with merely string-level annotation. To the best of our knowledge, our work is the first to finely manipulate the foreground text content and style by deeply semantic editing in the latent feature space. Extensive experiments demonstrate that QuadNet has the ability to generate photo-realistic foreground text and avoid source text shadows in real-world scenes when editing text content.
updated: Thu Apr 20 2023 05:36:49 GMT+0000 (UTC)
published: Thu Apr 20 2023 05:36:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト