画像とビデオの合成は、その優れた学術的価値とアプリケーション価値により、深い生成モデルの開発とともに、コンピューター ビジョンと機械学習のコミュニティで開花するトピックになりました。多くの研究者は、日常生活で最も一般的に見られるオブジェクト カテゴリの 1 つとして、忠実度の高い人間の画像を合成することに専念してきました。そこでは、さまざまな深い生成モデル、タスク設定、およびアプリケーションに基づいて多数の研究が行われています。したがって、人間の画像生成に関するこれらのバリアント方法の包括的な概要を説明する必要があります。この論文では、人間の画像生成技術を 3 つのパラダイム、つまりデータ駆動型手法、知識誘導型手法、およびハイブリッド手法に分けます。各ルートについて、最も代表的なモデルと対応するバリアントが提示され、さまざまな方法の利点と特徴がモデル アーキテクチャと入出力要件の観点から要約されています。また、主要な公開人物画像データセットと文献の評価指標もまとめられています。さらに、幅広いアプリケーションの可能性があるため、合成された人物画像の 2 つの典型的なダウンストリームの使用法、つまり人物認識タスクのデータ拡張とファッション顧客の仮想試着について説明します。最後に、将来の研究に光を当てるために、人間の画像生成の課題と潜在的な方向性について説明します。
Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various deep generative models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each route, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures and input/output requirements. Besides, the main public human image datasets and evaluation metrics in the literature are also summarized. Furthermore, due to the wide application potentials, two typical downstream usages of synthesized human images are covered, i.e., data augmentation for person recognition tasks and virtual try-on for fashion customers. Finally, we discuss the challenges and potential directions of human image generation to shed light on future research.