arXiv reaDer
FaceFormer:トランスフォーマーを使用した音声駆動の3D顔アニメーション
FaceFormer: Speech-Driven 3D Facial Animation with Transformers
音声駆動の3D顔アニメーションは、人間の顔の複雑なジオメトリと3Dオーディオビジュアルデータの限られた可用性のために困難です。以前の作品は通常、限られたコンテキストで短いオーディオウィンドウの音素レベルの機能を学習することに焦点を当てており、唇の動きが不正確になることがあります。この制限に対処するために、Transformerベースの自己回帰モデルであるFaceFormerを提案します。これは、長期的なオーディオコンテキストをエンコードし、アニメーション化された3D顔メッシュのシーケンスを自己回帰的に予測します。データ不足の問題に対処するために、自己監視された事前トレーニング済みの音声表現を統合します。また、バイアスされたクロスモーダルマルチヘッド(MH)注意と、周期的な位置エンコーディング戦略によるバイアスされた因果的MH自己注意を含む、この特定のタスクに適した2つのバイアスされた注意メカニズムを考案します。前者はオーディオモーションモダリティを効果的に調整しますが、後者はより長いオーディオシーケンスに一般化する機能を提供します。広範な実験と知覚的なユーザー調査は、私たちのアプローチが既存の最先端技術よりも優れていることを示しています。コードが利用可能になります。
Speech-driven 3D facial animation is challenging due to the complex geometry of human faces and the limited availability of 3D audio-visual data. Prior works typically focus on learning phoneme-level features of short audio windows with limited context, occasionally resulting in inaccurate lip movements. To tackle this limitation, we propose a Transformer-based autoregressive model, FaceFormer, which encodes the long-term audio context and autoregressively predicts a sequence of animated 3D face meshes. To cope with the data scarcity issue, we integrate the self-supervised pre-trained speech representations. Also, we devise two biased attention mechanisms well suited to this specific task, including the biased cross-modal multi-head (MH) attention and the biased causal MH self-attention with a periodic positional encoding strategy. The former effectively aligns the audio-motion modalities, whereas the latter offers abilities to generalize to longer audio sequences. Extensive experiments and a perceptual user study show that our approach outperforms the existing state-of-the-arts. The code will be made available.
updated: Thu Mar 17 2022 00:51:05 GMT+0000 (UTC)
published: Fri Dec 10 2021 04:21:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト