MsCGAN: Multi-scale Conditional Generative Adversarial Networks for Person Image Generation
 任意のポーズで高品質の人物画像を合成することは困難です。本論文では、入力条件付き人物画像を、外観とテクスチャが入力画像と一致する任意のターゲットポーズの合成画像に変換することを目的とした、新しいマルチスケール条件付き生成的敵対ネットワーク(MsCGAN)を提案します。 MsCGANは、2つのジェネレーターと2つの弁別器で構成されるマルチスケールの敵対ネットワークです。 1つのジェネレーターは条件付き人物画像をターゲットポーズの粗い画像にグローバルに変換し、もう1つのジェネレーターはローカル強化ネットワークを介して合成人物画像の詳細な品質を向上させます。 2つのジェネレーターの出力は、合成、判別、高解像度の画像にマージされます。一方、合成画像は、マルチスケール弁別器ネットワークへの入力として、複数の解像度にダウンサンプリングされます。さまざまなレベルの視覚的特徴を処理する提案されたマルチスケールジェネレーターとディスクリミネーターは、現実的な外観とテクスチャを備えた高解像度の人物画像の合成に役立ちます。 Market-1501およびDeepFashionデータセットで実験が行われ、提案されたモデルが評価されます。定性的および定量的な結果は、提案されたMsCGANの優れたパフォーマンスを示しています。
To synthesize high-quality person images with arbitrary poses is challenging. In this paper, we propose a novel Multi-scale Conditional Generative Adversarial Networks (MsCGAN), aiming to convert the input conditional person image to a synthetic image of any given target pose, whose appearance and the texture are consistent with the input image. MsCGAN is a multi-scale adversarial network consisting of two generators and two discriminators. One generator transforms the conditional person image into a coarse image of the target pose globally, and the other is to enhance the detailed quality of the synthetic person image through a local reinforcement network. The outputs of the two generators are then merged into a synthetic, discriminant and high-resolution image. On the other hand, the synthetic image is downsampled to multiple resolutions as the input to multi-scale discriminator networks. The proposed multi-scale generators and discriminators handling different levels of visual features can benefit to synthesizing high-resolution person images with realistic appearance and texture. Experiments are conducted on the Market-1501 and DeepFashion datasets to evaluate the proposed model, and both qualitative and quantitative results demonstrate the superior performance of the proposed MsCGAN.
updated: Thu Mar 05 2020 16:19:24 GMT+0000 (UTC)
published: Fri Oct 19 2018 15:04:13 GMT+0000 (UTC)
