高品質で多様な人間の画像を生成することは、視覚とグラフィックスにおいて重要でありながら挑戦的な作業です。ただし、既存の生成モデルは、衣服の形状やテクスチャの多様性が高いため、不十分なことがよくあります。さらに、生成プロセスは、素人ユーザーが直感的に制御できることが望まれます。この作品では、高品質で多様な人間の世代のために、テキスト駆動の制御可能なフレームワーク、Text2Humanを紹介します。与えられた人間のポーズから始まる全身の人間の画像を、2つの専用のステップで合成します。 1)衣服の形状を説明するテキストを使用して、特定の人間のポーズを最初に人間の解析マップに変換します。 2)次に、衣服のテクスチャに関するより多くの属性をシステムに提供することにより、最終的な人間の画像が生成されます。具体的には、衣服のテクスチャの多様性をモデル化するために、テクスチャのタイプごとにマルチスケールのニューラル表現を格納する階層的なテクスチャ対応コードブックを作成します。粗いレベルのコードブックにはテクスチャの構造表現が含まれていますが、細かいレベルのコードブックはテクスチャの詳細に焦点を当てています。学習した階層コードブックを利用して目的の画像を合成するために、専門家が混在する拡散ベースのトランスサンプラーを最初に使用して、コードブックの最も粗いレベルからインデックスをサンプリングし、次にコードブックのインデックスをより細かく予測するために使用しますレベル。さまざまなレベルで予測されたインデックスは、階層コードブックとともに学習されたデコーダーによって人間の画像に変換されます。専門家の混合を使用すると、きめの細かいテキスト入力を条件として生成された画像が可能になります。より細かいレベルのインデックスの予測により、衣服のテクスチャの品質が向上します。広範な定量的および定性的評価は、提案されたフレームワークが最先端の方法と比較してより多様で現実的な人間の画像を生成できることを示しています。
Generating high-quality and diverse human images is an important yet challenging task in vision and graphics. However, existing generative models often fall short under the high diversity of clothing shapes and textures. Furthermore, the generation process is even desired to be intuitively controllable for layman users. In this work, we present a text-driven controllable framework, Text2Human, for a high-quality and diverse human generation. We synthesize full-body human images starting from a given human pose with two dedicated steps. 1) With some texts describing the shapes of clothes, the given human pose is first translated to a human parsing map. 2) The final human image is then generated by providing the system with more attributes about the textures of clothes. Specifically, to model the diversity of clothing textures, we build a hierarchical texture-aware codebook that stores multi-scale neural representations for each type of texture. The codebook at the coarse level includes the structural representations of textures, while the codebook at the fine level focuses on the details of textures. To make use of the learned hierarchical codebook to synthesize desired images, a diffusion-based transformer sampler with mixture of experts is firstly employed to sample indices from the coarsest level of the codebook, which then is used to predict the indices of the codebook at finer levels. The predicted indices at different levels are translated to human images by the decoder learned accompanied with hierarchical codebooks. The use of mixture-of-experts allows for the generated image conditioned on the fine-grained text input. The prediction for finer level indices refines the quality of clothing textures. Extensive quantitative and qualitative evaluations demonstrate that our proposed framework can generate more diverse and realistic human images compared to state-of-the-art methods.