音声から顔を生成する際の課題は、口の領域が入力オーディオに対応するように、オーディオとビデオの 2 つの異なるモーダル情報を調整することにあります。以前の方法は、視聴覚表現の学習を利用するか、ランドマークや 3D モデルなどの中間構造情報を活用します。しかし、ビデオ合成段階で唇の視覚情報を十分に提供できないため、音素レベルで変化する唇の細部を合成するのに苦労しています。この制限を克服するために、私たちの研究では、入力オーディオに対応する口領域の視覚情報を取り込み、きめの細かいオーディオビジュアル コヒーレンスを強化する Audio-Lip Memory を提案しています。これは、一連のグラウンド トゥルース イメージから唇の動きの特徴を値メモリに保存し、対応する音声の特徴と合わせて、推論時に音声入力を使用して取得できるようにします。したがって、取得した唇の動きの特徴を視覚的なヒントとして使用すると、合成ステップでオーディオと視覚的なダイナミクスを簡単に関連付けることができます。メモリを分析することにより、固有の唇の特徴が音素レベルで各メモリ スロットに保存され、メモリ アドレッシングに基づいて微妙な唇の動きをキャプチャすることを示します。さらに、モデルでオーディオビジュアル同期損失と一緒に使用すると、リップシンクのパフォーマンスを向上させることができるビジュアルビジュアル同期損失を導入します。私たちの方法が入力オーディオと最もよく一致する口の形をした高品質のビデオを生成し、以前の最先端の方法よりも優れていることを確認するために、広範な実験が行われます。
The challenge of talking face generation from speech lies in aligning two different modal information, audio and video, such that the mouth region corresponds to input audio. Previous methods either exploit audio-visual representation learning or leverage intermediate structural information such as landmarks and 3D models. However, they struggle to synthesize fine details of the lips varying at the phoneme level as they do not sufficiently provide visual information of the lips at the video synthesis step. To overcome this limitation, our work proposes Audio-Lip Memory that brings in visual information of the mouth region corresponding to input audio and enforces fine-grained audio-visual coherence. It stores lip motion features from sequential ground truth images in the value memory and aligns them with corresponding audio features so that they can be retrieved using audio input at inference time. Therefore, using the retrieved lip motion features as visual hints, it can easily correlate audio with visual dynamics in the synthesis step. By analyzing the memory, we demonstrate that unique lip features are stored in each memory slot at the phoneme level, capturing subtle lip motion based on memory addressing. In addition, we introduce visual-visual synchronization loss which can enhance lip-syncing performance when used along with audio-visual synchronization loss in our model. Extensive experiments are performed to verify that our method generates high-quality video with mouth shapes that best align with the input audio, outperforming previous state-of-the-art methods.