arXiv reaDer
TediGAN:テキストガイド付きの多様な顔画像の生成と操作
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation
この作業では、テキスト記述によるマルチモーダル画像の生成と操作のための新しいフレームワークであるTediGANを提案します。提案された方法は、StyleGAN反転モジュール、視覚言語類似性学習、およびインスタンスレベルの最適化の3つのコンポーネントで構成されています。反転モジュールは、実像を十分に訓練されたStyleGANの潜在空間にマッピングします。視覚言語の類似性は、画像とテキストを共通の埋め込みスペースにマッピングすることにより、テキストと画像のマッチングを学習します。インスタンスレベルの最適化は、操作におけるIDの保持のためのものです。私たちのモデルは、1024で前例のない解像度で多様で高品質の画像を生成できます。スタイルミキシングに基づく制御メカニズムを使用して、TediGANは本質的に、インスタンスの有無にかかわらず、スケッチやセマンティックラベルなどのマルチモーダル入力による画像合成をサポートします。ガイダンス。テキスト誘導マルチモーダル合成を容易にするために、マルチモーダルCelebA-HQを提案します。これは、実際の顔画像と対応するセマンティックセグメンテーションマップ、スケッチ、およびテキスト記述で構成される大規模なデータセットです。導入されたデータセットでの広範な実験は、提案された方法の優れたパフォーマンスを示しています。コードとデータはhttps://github.com/weihaox/TediGANで入手できます。
In this work, we propose TediGAN, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and instance-level optimization. The inversion module maps real images to the latent space of a well-trained StyleGAN. The visual-linguistic similarity learns the text-image matching by mapping the image and text into a common embedding space. The instance-level optimization is for identity preservation in manipulation. Our model can produce diverse and high-quality images with an unprecedented resolution at 1024. Using a control mechanism based on style-mixing, our TediGAN inherently supports image synthesis with multi-modal inputs, such as sketches or semantic labels, with or without instance guidance. To facilitate text-guided multi-modal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/weihaox/TediGAN.
updated: Wed Mar 17 2021 11:52:51 GMT+0000 (UTC)
published: Sun Dec 06 2020 16:20:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト