この作業では、単眼ビデオからの 4D 顔再構成の問題に対するマルチモーダル ソリューションを提示します。 2D 画像からの 3D 顔の再構成は、奥行きが曖昧なため、制約不足の問題です。最先端の方法では、単一の画像またはビデオからの視覚情報を活用することでこの問題を解決しようとしますが、3D メッシュ アニメーションのアプローチは音声に大きく依存しています。ただし、ほとんどの場合 (AR/VR アプリケーションなど)、ビデオには視覚情報と音声情報の両方が含まれます。トレーニングに 3D グラウンド トゥルースを必要とせずに、両方のモダリティを組み込み、話者の 4D 顔と唇の動きを正確に再構築する AVFace を提案します。粗い段階で 3D モーフィング可能なモデルのフレームごとのパラメーターを推定し、続いて唇を微調整してから、細かい段階で顔の幾何学的な詳細を復元します。変圧器ベースのモジュールによってキャプチャされた一時的なオーディオおよびビデオ情報により、いずれかのモダリティが不十分な場合 (顔の遮蔽など) に、この方法は堅牢です。広範な定性的および定量的評価は、現在の最先端技術に対する私たちの方法の優位性を示しています。
In this work, we present a multimodal solution to the problem of 4D face reconstruction from monocular videos. 3D face reconstruction from 2D images is an under-constrained problem due to the ambiguity of depth. State-of-the-art methods try to solve this problem by leveraging visual information from a single image or video, whereas 3D mesh animation approaches rely more on audio. However, in most cases (e.g. AR/VR applications), videos include both visual and speech information. We propose AVFace that incorporates both modalities and accurately reconstructs the 4D facial and lip motion of any speaker, without requiring any 3D ground truth for training. A coarse stage estimates the per-frame parameters of a 3D morphable model, followed by a lip refinement, and then a fine stage recovers facial geometric details. Due to the temporal audio and video information captured by transformer-based modules, our method is robust in cases when either modality is insufficient (e.g. face occlusions). Extensive qualitative and quantitative evaluation demonstrates the superiority of our method over the current state-of-the-art.