意図した人間のポーズでフォトリアリスティックな画像を生成することは、スマートな写真編集、ムービー作成、仮想試着、ファッションディスプレイなどの多くのアプリケーションにとって有望でありながら挑戦的な研究トピックです。この論文では、ファッションアイテムの一貫性を保ちながら、特定のポーズから新しいポーズに人の画像を転送するための新しい深い生成モデルを提示します。フレームワークを定式化するために、画像合成に1つのジェネレーターと2つの弁別器を使用します。ジェネレーターには、画像エンコーダー、ポーズエンコーダー、デコーダーが含まれます。 2つのエンコーダーは、写真のようにリアルな画像を生成するためにデコーダーによって使用される視覚的および幾何学的コンテキストの優れた表現を提供します。既存のポーズ誘導画像生成モデルとは異なり、2つの識別器を活用して、1つの識別器が生成画像と実画像(トレーニングサンプル)を区別し、別の識別器がターゲットポーズと生成画像間の外観の一貫性を検証する合成プロセスをガイドします。ネットワークのエンドツーエンドのトレーニングを実行し、与えられたグラウンドトゥルースイメージを逆伝播してパラメーターを学習します。提案された生成モデルは、ターゲットポーズが与えられた人物のフォトリアリスティックな画像を合成できます。定量的および定性的の両方で、2つのデータセットで厳密な実験を行うことにより、結果を実証しました。
Generating a photorealistic image with intended human pose is a promising yet challenging research topic for many applications such as smart photo editing, movie making, virtual try-on, and fashion display. In this paper, we present a novel deep generative model to transfer an image of a person from a given pose to a new pose while keeping fashion item consistent. In order to formulate the framework, we employ one generator and two discriminators for image synthesis. The generator includes an image encoder, a pose encoder and a decoder. The two encoders provide good representation of visual and geometrical context which will be utilized by the decoder in order to generate a photorealistic image. Unlike existing pose-guided image generation models, we exploit two discriminators to guide the synthesis process where one discriminator differentiates between generated image and real images (training samples), and another discriminator verifies the consistency of appearance between a target pose and a generated image. We perform end-to-end training of the network to learn the parameters through back-propagation given ground-truth images. The proposed generative model is capable of synthesizing a photorealistic image of a person given a target pose. We have demonstrated our results by conducting rigorous experiments on two data sets, both quantitatively and qualitatively.