arXiv reaDer
Relightable Neural Video Portrait
Relightable Neural Video Portrait
フォトリアリスティックな顔のビデオポートレートの再現は、仮想制作と多数のVR / AR体験に役立ちます。ポートレートは高いリアリズムとターゲット環境との一貫性を維持する必要があるため、このタスクは依然として困難です。この論文では、頭のポーズと顔の表情をソース俳優から任意の新しい背景と照明条件を持つターゲット俳優のポートレートビデオに転送する、再照明可能なニューラルビデオポートレートを提示します。私たちのアプローチは、4D反射率フィールド学習、モデルベースの顔のパフォーマンスキャプチャ、およびターゲットを意識したニューラルレンダリングを組み合わせたものです。具体的には、レンダリングからビデオへの変換ネットワークを採用して、ハイブリッドフェイシャルパフォーマンスキャプチャ結果から高品質のOLATイメージセットとアルファマットを最初に合成します。次に、セマンティックを意識した顔の正規化スキームを設計して、信頼性の高い明示的な制御と、コンテンツ、セグメンテーション、および時間情報を同時にエンコードして高品質の反射率フィールド推論を行うマルチフレームマルチタスク学習戦略を可能にします。トレーニング後、私たちのアプローチはさらに、ターゲットパフォーマーの写実的で制御可能なビデオポートレート編集を可能にします。信頼性の高い顔のポーズと表情の編集は、同じハイブリッド顔キャプチャと正規化スキームをソースビデオ入力に適用することで得られます。また、明示的なアルファとOLAT出力により、高品質のリライトと背景の編集が可能になります。再照明と再現を同時に実現する機能により、さまざまな仮想制作およびビデオ書き換えアプリケーションのリアリズムを向上させることができます。
Photo-realistic facial video portrait reenactment benefits virtual production and numerous VR/AR experiences. The task remains challenging as the portrait should maintain high realism and consistency with the target environment. In this paper, we present a relightable neural video portrait, a simultaneous relighting and reenactment scheme that transfers the head pose and facial expressions from a source actor to a portrait video of a target actor with arbitrary new backgrounds and lighting conditions. Our approach combines 4D reflectance field learning, model-based facial performance capture and target-aware neural rendering. Specifically, we adopt a rendering-to-video translation network to first synthesize high-quality OLAT imagesets and alpha mattes from hybrid facial performance capture results. We then design a semantic-aware facial normalization scheme to enable reliable explicit control as well as a multi-frame multi-task learning strategy to encode content, segmentation and temporal information simultaneously for high-quality reflectance field inference. After training, our approach further enables photo-realistic and controllable video portrait editing of the target performer. Reliable face poses and expression editing is obtained by applying the same hybrid facial capture and normalization scheme to the source video input, while our explicit alpha and OLAT output enable high-quality relit and background editing. With the ability to achieve simultaneous relighting and reenactment, we are able to improve the realism in a variety of virtual production and video rewrite applications.
updated: Sun Nov 28 2021 06:25:10 GMT+0000 (UTC)
published: Fri Jul 30 2021 16:20:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト