人間のポーズの転送は、その幅広いアプリケーションのために大きな注目を集めていますが、それでも十分に解決されていない挑戦的なタスクです。最近の作品は、人物の画像をソースからターゲットのポーズに転送することに大きな成功を収めています。ただし、それらのほとんどはセマンティックな外観をうまくキャプチャできないため、再構築された結果に一貫性のない、現実的でないテクスチャが生成されます。この問題に対処するために、ポーズと外観の変換を処理するための新しい2段階のフレームワークを提案します。最初の段階では、ターゲットのセマンティック解析マップを予測して、ポーズ転送の問題を排除し、領域ごとの外観スタイルの後者の変換にさらにメリットをもたらします。 2つ目は、予測されたターゲットセマンティックマップを使用して、領域適応正規化を組み込むことによる新しい人物画像生成方法を提案します。この方法では、領域ごとのスタイルを使用してターゲットの外観の生成をガイドします。広範な実験により、提案されたSPGNetは、より意味論的で一貫性のあるフォトリアリスティックな結果を生成し、定量的および定性的評価の点で最先端の方法に対して有利に機能することが示されています。ソースコードとモデルはhttps://github.com/cszy98/SPGNet.gitで入手できます。
Human pose transfer has received great attention due to its wide applications, yet is still a challenging task that is not well solved. Recent works have achieved great success to transfer the person image from the source to the target pose. However, most of them cannot well capture the semantic appearance, resulting in inconsistent and less realistic textures on the reconstructed results. To address this issue, we propose a new two-stage framework to handle the pose and appearance translation. In the first stage, we predict the target semantic parsing maps to eliminate the difficulties of pose transfer and further benefit the latter translation of per-region appearance style. In the second one, with the predicted target semantic maps, we suggest a new person image generation method by incorporating the region-adaptive normalization, in which it takes the per-region styles to guide the target appearance generation. Extensive experiments show that our proposed SPGNet can generate more semantic, consistent, and photo-realistic results and perform favorably against the state of the art methods in terms of quantitative and qualitative evaluation. The source code and model are available at https://github.com/cszy98/SPGNet.git.