我々は、話者の言葉に基づいて二者間の社会的相互作用において聞き手から適切な顔の反応を生成するためのフレームワークを提示する。タイムスタンプ付きの話者の言葉の入力転写が与えられると、私たちのアプローチは、リスナーの反応、つまり VQ-VAE を使用して量子化された一連のリスナーの顔のジェスチャーを自己回帰的に予測します。ジェスチャは言語コンポーネントであるため、量子化された原子的な動き要素をトランスフォーマーベースの大規模言語モデルへの追加の言語トークン入力として扱うことを提案します。テキストのみで事前トレーニングされた言語モデルの重みを使用してトランスフォーマーを初期化すると、トランスフォーマーを最初からトレーニングするよりもはるかに高品質なリスナー応答が得られます。生成されたリスナーのモーションは流暢であり、定量的な指標と定性的なユーザー調査を通じて言語の意味論を反映していることを示します。私たちの評価では、音声テキストの時間的および意味論的な側面を利用するモデルの能力を分析します。プロジェクトページ: https://people.eecs.berkeley.edu/~ebonne_ng/projects/text2listen/
We present a framework for generating appropriate facial responses from a listener in dyadic social interactions based on the speaker's words. Given an input transcription of the speaker's words with their timestamps, our approach autoregressively predicts a response of a listener: a sequence of listener facial gestures, quantized using a VQ-VAE. Since gesture is a language component, we propose treating the quantized atomic motion elements as additional language token inputs to a transformer-based large language model. Initializing our transformer with the weights of a language model pre-trained only on text results in significantly higher quality listener responses than training a transformer from scratch. We show that our generated listener motion is fluent and reflective of language semantics through quantitative metrics and a qualitative user study. In our evaluation, we analyze the model's ability to utilize temporal and semantic aspects of spoken text. Project page: https://people.eecs.berkeley.edu/~evonne_ng/projects/text2listen/