この論文では、テキストのみを条件とした高解像度の人物画像を生成するためのエンドツーエンドのアプローチを紹介します。最先端のテキストから画像への生成モデルは、主に花や鳥などの中心オブジェクトの生成用に設計されています。同様の形状と方向を持つ中央に配置されたオブジェクトとは異なり、人物画像の生成はより困難なタスクであり、以下のことが観察されます: 1) 同じ人物に対して生成された画像は、同一性の一貫性を備えた視覚的な詳細を示します (アイデンティティ関連のテクスチャなど)。 2) これらの画像は、視覚的な曖昧さによって引き起こされる人物間の変動に対して堅牢であることが識別できる必要があります。上記の課題に対処するために、2 つの新しいメカニズムを使用して人物画像を生成する効果的な生成モデルを開発します。特に、私たちの最初のメカニズム (T-person-GAN-ID と呼ばれます) は、生成されたデータの表現が特徴空間内で正規化されて、アイデンティティの一貫性が保証されるように、ワンストリーム ジェネレーターをアイデンティティ維持ネットワークと統合することです。 2 番目のメカニズム (T-person-GAN-ID-MM と呼ばれます) は、多様体混合に基づいており、異なる多様体 ID から生成された画像全体にわたる線形補間を介して混合画像を生成し、そのような補間された画像が線形に分類されるようにさらに強制します。特徴空間内で。これは、画像を 2 つのアイデンティティから完全に分離できる線形分類境界を学習することに相当します。私たちが提案した方法は、テキストから人物への画像生成において顕著な改善を達成することが経験的に検証されています。私たちのアーキテクチャは StackGAN++ と直交しており、人物画像の生成に焦点を当てており、それらすべてを組み合わせて画像生成タスクの GAN のスペクトルを強化します。コードは https://github.com/linwu-github/person-Image-Generation.git で入手できます。
In this paper, we present an end-to-end approach to generate high-resolution person images conditioned on texts only. State-of-the-art text-to-image generation models are mainly designed for center-object generation, e.g., flowers and birds. Unlike center-placed objects with similar shapes and orientation, person image generation is a more challenging task, for which we observe the followings: 1) the generated images for the same person exhibit visual details with identity-consistency, e.g., identity-related textures/clothes/shoes across the images, and 2) those images should be discriminant for being robust against the inter-person variations caused by visual ambiguities. To address the above challenges, we develop an effective generative model to produce person images with two novel mechanisms. In particular, our first mechanism (called T-Person-GAN-ID) is to integrate the one-stream generator with an identity-preserving network such that the representations of generated data are regularized in their feature space to ensure the identity-consistency. The second mechanism (called T-Person-GAN-ID-MM) is based on the manifold mix-up to produce mixed images via the linear interpolation across generated images from different manifold identities, and we further enforce such interpolated images to be linearly classified in the feature space. This amounts to learning a linear classification boundary that can perfectly separate images from two identities. Our proposed method is empirically validated to achieve a remarkable improvement in text-to-person image generation. Our architecture is orthogonal to StackGAN++ , and focuses on person image generation, with all of them together to enrich the spectrum of GANs for the image generation task. Codes are available on https://github.com/linwu-github/Person-Image-Generation.git.