パーソナライズされたインザワイルド(携帯電話、ウェブカメラ、YouTubeクリップなど)のビデオデータから3D顔モデルを構築および追跡するためのエンドツーエンドのパイプラインを提案します。最初に、従来のコンピュータグラフィックスパイプラインの衝突検出アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索の方法を紹介します。その後、合成ターンテーブルを利用し、ディープフェイクテクノロジーを活用して、不完全な合成ジオメトリや画像のずれに対して堅牢な外観キャプチャ用の合成マルチビューステレオパイプラインを構築します。結果として得られるモデルは、アニメーションリグに適合し、これを使用して顔のパフォーマンスを追跡します。特に、deepfakeテクノロジーの斬新な使用により、合成と実領域の大きなギャップにもかかわらず、微分可能なレンダラーを使用して、野生のデータの堅牢な追跡を実行できます。最後に、モーションキャプチャリグレッサをトレーニングする方法の概要を説明します。前述の手法を活用して、実際のグラウンドトゥルースデータやハイエンドのキャリブレーションされたカメラキャプチャセットアップの必要性を回避します。
We propose an end-to-end pipeline for both building and tracking 3D facial models from personalized in-the-wild (cellphone, webcam, youtube clips, etc.) video data. First, we present a method for automatic data curation and retrieval based on a hierarchical clustering framework typical of collision detection algorithms in traditional computer graphics pipelines. Subsequently, we utilize synthetic turntables and leverage deepfake technology in order to build a synthetic multi-view stereo pipeline for appearance capture that is robust to imperfect synthetic geometry and image misalignment. The resulting model is fit with an animation rig, which is then used to track facial performances. Notably, our novel use of deepfake technology enables us to perform robust tracking of in-the-wild data using differentiable renderers despite a significant synthetic-to-real domain gap. Finally, we outline how we train a motion capture regressor, leveraging the aforementioned techniques to avoid the need for real-world ground truth data and/or a high-end calibrated camera capture setup.