arXiv reaDer
オーディオ駆動型の顔合成をテキスト駆動型に再プログラミングする
Reprogramming Audio-driven Talking Face Synthesis into Text-driven
この論文では、事前にトレーニングされた音声駆動の話し顔合成モデルを再プログラムして、テキスト入力で動作できるようにする方法を提案します。音声駆動型会話顔合成モデルは音声音声を入力とするため、所望の音声内容の会話アバターを生成するには、事前に音声録音を行う必要があります。ただし、生成されるビデオごとに音声を録音するのは面倒です。この問題を軽減するために、事前トレーニングされたオーディオ駆動モデルの学習されたオーディオ潜在空間に入力テキストを埋め込む新しい方法を提案します。この目的を達成するために、特定のテキスト入力を音声の潜在的な特徴にマッピングする方法を学習するように導かれる Text-to-Audio Embedding Module (TAEM) を設計します。さらに、オーディオ特徴に含まれるスピーカー特性をモデル化するために、単一の顔画像から取得される視覚的なスピーカー埋め込みを TAEM に注入することを提案します。トレーニング後は、テキストまたは音声音声を使用して話している顔のビデオを合成できます。
In this paper, we propose a method to reprogram pre-trained audio-driven talking face synthesis models to be able to operate with text inputs. As the audio-driven talking face synthesis model takes speech audio as inputs, in order to generate a talking avatar with the desired speech content, speech recording needs to be performed in advance. However, this is burdensome to record audio for every video to be generated. In order to alleviate this problem, we propose a novel method that embeds input text into the learned audio latent space of the pre-trained audio-driven model. To this end, we design a Text-to-Audio Embedding Module (TAEM) which is guided to learn to map a given text input to the audio latent features. Moreover, to model the speaker characteristics lying in the audio features, we propose to inject visual speaker embedding into the TAEM, which is obtained from a single face image. After training, we can synthesize talking face videos with either text or speech audio.
updated: Wed Jun 28 2023 08:22:53 GMT+0000 (UTC)
published: Wed Jun 28 2023 08:22:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト