arXiv reaDer
StyO:ワンショットで顔をスタイリング
StyO: Stylize Your Face in Only One-Shot
このホワイト ペーパーでは、単一の芸術的ターゲットを使用した顔のスタイル設定に焦点を当てています。このタスクの既存の作業は、多くの場合、ジオメトリのバリエーションを達成しながらソース コンテンツを保持できません。ここでは、新しい StyO モデルを提示します。上記の問題を解決するために、ワンショットのみで顔をスタイリングします。特に、StyO はもつれを解き、再結合する戦略を利用します。最初に、ソース イメージとターゲット イメージのコンテンツとスタイルを識別子に分解します。次に、それらをクロス方式で再結合して、様式化された顔画像を導き出します。このように、StyO は複雑な画像を独立した特定の属性に分解し、入力画像からのさまざまな属性の組み合わせとしてワンショットの顔のスタイル設定を単純化することで、ターゲット画像の顔のジオメトリとソース画像の内容によりよく一致する結果を生成します。 StyO は潜在拡散モデル (LDM) で実装され、2 つの主要なモジュールで構成されます。これは、識別子を対照的なテキスト プロンプトとして表します。ポジティブな説明とネガティブな説明。また、新しいトリプル再構成損失を導入して、スタイルとコンテンツを対応する識別子にエンコードするための事前トレーニング済み LDM を微調整します。 2) 再結合フェーズ用の細粒度コンテンツ コントローラー (FCC)。 IDL から分離された識別子を再結合して、定型化された顔を生成するための拡張テキスト プロンプトを形成します。さらに、FCC は、結果のソースの顔の詳細を保持するために、潜在機能とテキスト機能のクロス アテンション マップも制約します。広範な評価は、StyO がさまざまなスタイルの多数の絵画で高品質の画像を生成し、現在の最先端技術を凌駕していることを示しています。コードは承認後にリリースされます。
This paper focuses on face stylization with a single artistic target. Existing works for this task often fail to retain the source content while achieving geometry variation. Here, we present a novel StyO model, ie. Stylize the face in only One-shot, to solve the above problem. In particular, StyO exploits a disentanglement and recombination strategy. It first disentangles the content and style of source and target images into identifiers, which are then recombined in a cross manner to derive the stylized face image. In this way, StyO decomposes complex images into independent and specific attributes, and simplifies one-shot face stylization as the combination of different attributes from input images, thus producing results better matching face geometry of target image and content of source one. StyO is implemented with latent diffusion models (LDM) and composed of two key modules: 1) Identifier Disentanglement Learner (IDL) for disentanglement phase. It represents identifiers as contrastive text prompts, ie. positive and negative descriptions. And it introduces a novel triple reconstruction loss to fine-tune the pre-trained LDM for encoding style and content into corresponding identifiers; 2) Fine-grained Content Controller (FCC) for the recombination phase. It recombines disentangled identifiers from IDL to form an augmented text prompt for generating stylized faces. In addition, FCC also constrains the cross-attention maps of latent and text features to preserve source face details in results. The extensive evaluation shows that StyO produces high-quality images on numerous paintings of various styles and outperforms the current state-of-the-art. Code will be released upon acceptance.
updated: Mon Mar 06 2023 15:48:33 GMT+0000 (UTC)
published: Mon Mar 06 2023 15:48:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト