人間の被験者の現実的な高解像度ビデオの生成は、コンピュータービジョンにおける挑戦的で重要なタスクです。この論文では、人間の動きの伝達に焦点を当てます-単一の画像で観察される特定の被写体を描写し、補助(駆動)ビデオに例示される一連の動きを実行するビデオの生成。 GANベースのアーキテクチャであるDwNetは、高密度の中間ポーズガイド表示と洗練プロセスを活用して、ソース画像から目的のポーズに必要な被写体の外観をテクスチャの形でワープします。以前に生成されたフレームでGAN内のデコードプロセスをさらに調整することにより、一時的な一貫性が維持されます。このようにして、ビデオは反復的かつ反復的に生成されます。 TaiChiとFashion Modelingの2つのベンチマークデータセットで最先端の定量的および定性的パフォーマンスを示すことにより、アプローチの有効性を示します。後者は私たちによって収集され、コミュニティに公開されます。
Generation of realistic high-resolution videos of human subjects is a challenging and important task in computer vision. In this paper, we focus on human motion transfer - generation of a video depicting a particular subject, observed in a single image, performing a series of motions exemplified by an auxiliary (driving) video. Our GAN-based architecture, DwNet, leverages dense intermediate pose-guided representation and refinement process to warp the required subject appearance, in the form of the texture, from a source image into a desired pose. Temporal consistency is maintained by further conditioning the decoding process within a GAN on the previously generated frame. In this way a video is generated in an iterative and recurrent fashion. We illustrate the efficacy of our approach by showing state-of-the-art quantitative and qualitative performance on two benchmark datasets: TaiChi and Fashion Modeling. The latter is collected by us and will be made publicly available to the community.