現実的なデータサンプルを合成することは、学界と産業界の両方にとって大きな価値があります。深い生成モデルは、コンピュータビジョンや信号処理などのさまざまな研究分野で新たなトピックになっています。コンピュータビジョン社会で幅広い関心のあるトピックである感情コンピューティングも例外ではなく、生成モデルの恩恵を受けています。実際、感情コンピューティングでは、過去20年間に生成モデルの急速な派生が観察されました。このようなモデルのアプリケーションには、感情の認識と分類、単峰性の感情合成、およびクロスモーダル感情合成が含まれますが、これらに限定されません。その結果、利用可能なデータベース、生成モデルの長所と短所、および2つの主要な人間のコミュニケーションモダリティ、つまりオーディオとビデオを考慮した関連するトレーニング戦略を研究することにより、人間の感情合成における最近の進歩のレビューを行いました。このコンテキストでは、顔の表情の合成、音声感情の合成、および視聴覚(クロスモーダル)感情の合成は、さまざまなアプリケーションシナリオの下で広範囲にレビューされます。徐々に、未解決の研究問題について議論し、将来の研究のためにこの研究領域の限界を押し広げます。
Synthesizing realistic data samples is of great value for both academic and industrial communities. Deep generative models have become an emerging topic in various research areas like computer vision and signal processing. Affective computing, a topic of a broad interest in computer vision society, has been no exception and has benefited from generative models. In fact, affective computing observed a rapid derivation of generative models during the last two decades. Applications of such models include but are not limited to emotion recognition and classification, unimodal emotion synthesis, and cross-modal emotion synthesis. As a result, we conducted a review of recent advances in human emotion synthesis by studying available databases, advantages, and disadvantages of the generative models along with the related training strategies considering two principal human communication modalities, namely audio and video. In this context, facial expression synthesis, speech emotion synthesis, and the audio-visual (cross-modal) emotion synthesis is reviewed extensively under different application scenarios. Gradually, we discuss open research problems to push the boundaries of this research area for future works.