arXiv reaDer
制作用のビデオ駆動型ニューラル物理ベースのフェイシャルアセット
Video-driven Neural Physically-based Facial Asset for Production
説得力のある3Dダイナミックな人間の顔を作成するための制作レベルのワークフローは、ジオメトリとテクスチャの生成、モーションキャプチャとリギング、および表現の合成のための労働集約的なツールの混乱に長い間依存してきました。最近のニューラルアプローチは個々のコンポーネントを自動化しますが、対応する潜在的な表現は、従来のツールのようにアーティストに明示的なコントロールを提供することはできません。この論文では、高品質の物理ベースのアセットを使用して動的な顔のジオメトリを生成するための、新しい学習ベースのビデオ駆動型アプローチを紹介します。 2つの重要なコンポーネントは、ビデオからの密な時間サンプリングと、潜在空間を調整するための明示的な表情制御による、適切に構造化された潜在空間です。データ収集のために、ハイブリッドマルチビュー測光キャプチャステージを構築し、超高速ビデオカメラと組み合わせて生の3D顔資産を取得します。次に、顔の表情、ジオメトリ、および物理ベースのテクスチャを、潜在空間全体でグローバルMLPベースの表現マッピングを使用して個別のVAEを使用してモデル化し、ジオメトリとテクスチャの明示的な制御を維持しながら、それぞれの属性全体の特性を保持します。また、デルタ情報を物理ベースのテクスチャのリンクルマップとしてモデル化し、動的テクスチャの高品質なレンダリングを実現します。忠実度の高いパフォーマー固有の顔のキャプチャとクロスアイデンティティの顔の動きのリターゲティングにおけるアプローチを示します。さらに、私たちのニューラルアセットは、高速適応スキームとともに、実際のビデオを処理するために展開することもできます。さらに、ジオメトリやマテリアルの編集、リアリズムの高いウィンクル転送など、物理ベースの有望な編集結果を提供することで、明示的な顔のもつれを解く戦略の有用性を高めます。包括的な実験は、私たちの技術が以前のビデオ駆動の顔の再構成とアニメーションの方法よりも高い精度と視覚的忠実度を提供することを示しています。
Production-level workflows for producing convincing 3D dynamic human faces have long relied on a disarray of labor-intensive tools for geometry and texture generation, motion capture and rigging, and expression synthesis. Recent neural approaches automate individual components but the corresponding latent representations cannot provide artists explicit controls as in conventional tools. In this paper, we present a new learning-based, video-driven approach for generating dynamic facial geometries with high-quality physically-based assets. Two key components are well-structured latent spaces due to dense temporal samplings from videos and explicit facial expression controls to regulate the latent spaces. For data collection, we construct a hybrid multiview-photometric capture stage, coupling with an ultra-fast video camera to obtain raw 3D facial assets. We then model the facial expression, geometry and physically-based textures using separate VAEs with a global MLP-based expression mapping across the latent spaces, to preserve characteristics across respective attributes while maintaining explicit controls over geometry and texture. We also introduce to model the delta information as wrinkle maps for physically-base textures, achieving high-quality rendering of dynamic textures. We demonstrate our approach in high-fidelity performer-specific facial capture and cross-identity facial motion retargeting. In addition, our neural asset along with fast adaptation schemes can also be deployed to handle in-the-wild videos. Besides, we motivate the utility of our explicit facial disentangle strategy by providing promising physically-based editing results like geometry and material editing or winkle transfer with high realism. Comprehensive experiments show that our technique provides higher accuracy and visual fidelity than previous video-driven facial reconstruction and animation methods.
updated: Mon Feb 14 2022 07:01:55 GMT+0000 (UTC)
published: Fri Feb 11 2022 13:22:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト