HUMBO: Bridging Response Generation and Facial Expression Synthesis
映画のチケット予約などの複雑なタスクをユーザーが解決するのを支援する音声対話システムは、人工知能や自然言語処理の分野で新たな研究トピックになっています。インテリジェントなパーソナルアシスタントとして適切に設計された対話システムを使用すると、人々は自然言語の相互作用を介して特定のタスクをより簡単に実行できます。今日、市場にはいくつかの仮想インテリジェントアシスタントがあります。ただし、ほとんどのシステムは、テキストまたは音声の相互作用にのみ焦点を当てています。この論文では、対話応答を生成すると同時に、より良いマルチモーダル相互作用のために顔の対応する視覚的表現を合成することを目的としたシステムであるHUMBOを紹介します。 HUMBOは、(1)ユーザーが1つの画像で仮想アシスタントの外観を判断できるようにし、(2)ユーザーが提供した画像に一貫した感情的な発話と表情を生成できるようにします。これはまったく新しい研究の方向性であるだけでなく、さらに重要なことに、より人間らしい仮想アシスタントへの究極の一歩です。
Spoken dialogue systems that assist users to solve complex tasks such as movie ticket booking have become an emerging research topic in artificial intelligence and natural language processing areas. With a well-designed dialogue system as an intelligent personal assistant, people can accomplish certain tasks more easily via natural language interactions. Today there are several virtual intelligent assistants in the market; however, most systems only focus on textual or vocal interaction. In this paper, we present HUMBO, a system aiming at generating dialogue responses and simultaneously synthesize corresponding visual expressions on faces for better multimodal interaction. HUMBO can (1) let users determine the appearances of virtual assistants by a single image, and (2) generate coherent emotional utterances and facial expressions on the user-provided image. This is not only a brand new research direction but more importantly, an ultimate step toward more human-like virtual assistants.
updated: Tue Aug 31 2021 13:41:25 GMT+0000 (UTC)
published: Fri May 24 2019 10:22:16 GMT+0000 (UTC)
