arXiv reaDer
リアルなオーディオ駆動型トーキング顔合成のための任意のトーキングスタイルの模倣
Imitating Arbitrary Talking Style for Realistic Audio-DrivenTalking Face Synthesis
人々は多様なスタイルで話します。 1つのスピーチでは、話し方が異なれば、顔と頭のポーズの動きに大きな違いが見られます。たとえば、「興奮した」スタイルは通常、口を大きく開いた状態で話しますが、「厳粛な」スタイルはより標準化されており、誇張された動きを示すことはめったにありません。異なるスタイル間のそのような大きな違いのために、話すスタイルを音声駆動の話す顔合成フレームワークに組み込む必要があります。本論文では、特定の参照ビデオの任意の会話スタイルを模倣することにより、会話顔合成フレームワークにスタイルを注入することを提案します。具体的には、収集したTed-HDデータセットを使用して会話スタイルを体系的に調査し、3Dモーフィング可能モデル〜(3DMM)パラメーターのいくつかの統計としてスタイルコードを構築します。その後、スタイルコードから会話スタイルを模倣することにより、定型化された会話顔を合成する潜在スタイル融合〜(LSF)モデルを考案します。フレームワークの次の斬新な特徴を強調します。(1)スタイルの注釈を必要とせず、話し方のスタイルは、野生の話し方のビデオから教師なしで学習されます。 (2)任意のビデオから任意のスタイルを模倣でき、スタイルコードを補間して新しいスタイルを生成することもできます。広範な実験は、提案されたフレームワークがベースライン方法と比較してより自然で表現力豊かな会話スタイルを合成する能力を持っていることを示しています。
People talk with diversified styles. For one piece of speech, different talking styles exhibit significant differences in the facial and head pose movements. For example, the "excited" style usually talks with the mouth wide open, while the "solemn" style is more standardized and seldomly exhibits exaggerated motions. Due to such huge differences between different styles, it is necessary to incorporate the talking style into audio-driven talking face synthesis framework. In this paper, we propose to inject style into the talking face synthesis framework through imitating arbitrary talking style of the particular reference video. Specifically, we systematically investigate talking styles with our collected Ted-HD dataset and construct style codes as several statistics of 3D morphable model~(3DMM) parameters. Afterwards, we devise a latent-style-fusion~(LSF) model to synthesize stylized talking faces by imitating talking styles from the style codes. We emphasize the following novel characteristics of our framework: (1) It doesn't require any annotation of the style, the talking style is learned in an unsupervised manner from talking videos in the wild. (2) It can imitate arbitrary styles from arbitrary videos, and the style codes can also be interpolated to generate new styles. Extensive experiments demonstrate that the proposed framework has the ability to synthesize more natural and expressive talking styles compared with baseline methods.
updated: Sat Oct 30 2021 08:15:27 GMT+0000 (UTC)
published: Sat Oct 30 2021 08:15:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト