arXiv reaDer
CNNとLSTMを使用した新しい音声駆動リップシンクモデル
A Novel Speech-Driven Lip-Sync Model with CNN and LSTM
音声で同期した自然な唇の動きを生成することは、リアルな仮想キャラクターを作成する上で最も重要なタスクの1つです。この論文では、可変長音声入力から3Dテンプレート顔モデルの頂点変位を生成するための1次元畳み込みとLSTMの組み合わせディープニューラルネットワークを提示します。 3D唇形状の頂点の動きで表される顔の下部の動きは、入力された音声と一致しています。さまざまな音声信号に対するネットワークの堅牢性を強化するために、訓練された音声認識モデルを適応させて音声の特徴を抽出し、速度損失項を採用して、生成された顔のアニメーションのジッターを低減します。北京語を話す中国人の成人の一連のビデオを録画し、そのような公開データの不足を補うために新しい音声アニメーションデータセットを作成しました。定性的および定量的評価は、私たちのモデルが音声と同期した滑らかで自然な唇の動きを生成できることを示しています。
Generating synchronized and natural lip movement with speech is one of the most important tasks in creating realistic virtual characters. In this paper, we present a combined deep neural network of one-dimensional convolutions and LSTM to generate vertex displacement of a 3D template face model from variable-length speech input. The motion of the lower part of the face, which is represented by the vertex movement of 3D lip shapes, is consistent with the input speech. In order to enhance the robustness of the network to different sound signals, we adapt a trained speech recognition model to extract speech feature, and a velocity loss term is adopted to reduce the jitter of generated facial animation. We recorded a series of videos of a Chinese adult speaking Mandarin and created a new speech-animation dataset to compensate the lack of such public data. Qualitative and quantitative evaluations indicate that our model is able to generate smooth and natural lip movements synchronized with speech.
updated: Mon May 02 2022 13:57:50 GMT+0000 (UTC)
published: Mon May 02 2022 13:57:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト