arXiv reaDer
感情的に強化された話し顔の生成
Emotionally Enhanced Talking Face Generation
いくつかの研究では、ビデオでの教育や言語翻訳など、さまざまな現実世界のアプリケーションを使用して、リップシンクされた話し顔を生成するためのエンドツーエンドのパイプラインが開発されています。しかし、これらの従来の作品は、人々の表情や感情にほとんど焦点を当てていないため、リアルなビデオを作成できませんでした.さらに、これらの方法の有効性は、トレーニング データセット内の顔に大きく依存します。つまり、目に見えない顔ではうまく機能しない可能性があります。これを軽減するために、カテゴリー感情に条件付けられた話し顔生成フレームワークを構築して、適切な表現でビデオを生成し、より現実的で説得力のあるものにします。幸福、悲しみ、恐怖、怒り、嫌悪、中立の 6 つの感情の広い範囲で、モデルが任意のアイデンティティ、感情、および言語に適応できることを示します。私たちの提案するフレームワークには、感情で顔を生成するためのリアルタイムのエクスペリエンスを備えたユーザーフレンドリーな Web インターフェイスが装備されています。また、インターフェースの使いやすさ、デザイン、機能性を主観的に評価するためのユーザー調査も実施しています。
Several works have developed end-to-end pipelines for generating lip-synced talking faces with various real-world applications, such as teaching and language translation in videos. However, these prior works fail to create realistic-looking videos since they focus little on people's expressions and emotions. Moreover, these methods' effectiveness largely depends on the faces in the training dataset, which means they may not perform well on unseen faces. To mitigate this, we build a talking face generation framework conditioned on a categorical emotion to generate videos with appropriate expressions, making them more realistic and convincing. With a broad range of six emotions, i.e., happiness, sadness, fear, anger, disgust, and neutral, we show that our model can adapt to arbitrary identities, emotions, and languages. Our proposed framework is equipped with a user-friendly web interface with a real-time experience for talking face generation with emotions. We also conduct a user study for subjective evaluation of our interface's usability, design, and functionality.
updated: Tue Mar 21 2023 02:33:27 GMT+0000 (UTC)
published: Tue Mar 21 2023 02:33:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト