arXiv reaDer
StyleHEAT:事前にトレーニングされたStyleGANを介したワンショットの高解像度編集可能な話す顔の生成
StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN
ワンショットトーキングフェイス生成は、ビデオまたはオーディオセグメントによって駆動される、任意のポートレート画像から高品質のトーキングフェイスビデオを合成することを目的としています。難しい品質要因の1つは、出力ビデオの解像度です。解像度が高いほど、詳細がわかります。この作業では、事前にトレーニングされたStyleGANの潜在特徴空間を調査し、いくつかの優れた空間変換プロパティを発見します。観察の結果、事前にトレーニングされたStyleGANを使用して、トレーニングデータセットの解像度の限界を突破する可能性を探ります。事前にトレーニングされたStyleGANに基づく新しい統合フレームワークを提案します。これにより、高解像度ビデオの生成、ビデオまたはオーディオの駆動による解きほぐされた制御、柔軟な顔の編集など、一連の強力な機能が可能になります。私たちのフレームワークは、トレーニングデータセットの解像度が低くても、合成された話し顔の解像度を初めて1024*1024に上げます。ビデオベースのモーション生成モジュールとオーディオベースのモジュールを設計します。これらは、フレームワークに個別にまたは共同でプラグインして、ビデオ生成を駆動できます。予測されたモーションは、ビジュアルアニメーション用にStyleGANの潜在的な特徴を変換するために使用されます。変換の歪みを補正するために、キャリブレーションネットワークとドメイン損失を提案して機能を改良します。さらに、私たちのフレームワークでは、GAN反転によるグローバル編集と、3Dモーフィング可能モデルに基づく直感的な編集の2種類の顔編集が可能です。包括的な実験により、最先端の方法よりも優れたビデオ品質、柔軟な制御性、および編集性が示されています。
One-shot talking face generation aims at synthesizing a high-quality talking face video from an arbitrary portrait image, driven by a video or an audio segment. One challenging quality factor is the resolution of the output video: higher resolution conveys more details. In this work, we investigate the latent feature space of a pre-trained StyleGAN and discover some excellent spatial transformation properties. Upon the observation, we explore the possibility of using a pre-trained StyleGAN to break through the resolution limit of training datasets. We propose a novel unified framework based on a pre-trained StyleGAN that enables a set of powerful functionalities, i.e., high-resolution video generation, disentangled control by driving video or audio, and flexible face editing. Our framework elevates the resolution of the synthesized talking face to 1024*1024 for the first time, even though the training dataset has a lower resolution. We design a video-based motion generation module and an audio-based one, which can be plugged into the framework either individually or jointly to drive the video generation. The predicted motion is used to transform the latent features of StyleGAN for visual animation. To compensate for the transformation distortion, we propose a calibration network as well as a domain loss to refine the features. Moreover, our framework allows two types of facial editing, i.e., global editing via GAN inversion and intuitive editing based on 3D morphable models. Comprehensive experiments show superior video quality, flexible controllability, and editability over state-of-the-art methods.
updated: Thu Mar 17 2022 02:19:35 GMT+0000 (UTC)
published: Tue Mar 08 2022 12:06:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト