事前にトレーニングされたStyleGANジェネレーターを使用した画像編集は、顔編集の強力なパラダイムとして登場し、年齢、表情、照明などを解きほぐした制御を提供します。ただし、このアプローチをビデオ操作に直接採用することはできません。主な欠落している要素は、顔の位置、顔のポーズ、および局所的な顔の表情に対するきめ細かく解きほぐされた制御の欠如であると仮定します。この作業では、事前にトレーニングされたStyleGANを使用して、複数の(潜在的な)スペース(つまり、位置スペース、W +スペース、およびSスペース)で作業し、最適化の結果を組み合わせることで、このようなきめ細かい制御が実際に達成できることを示します。複数のスペース。この有効化コンポーネントに基づいて、ターゲット画像と駆動ビデオを取得するVideo2StyleGANを導入し、ターゲット画像のIDで駆動ビデオからローカルおよびグローバルな場所と表現を再現します。複数の困難なシナリオでの方法の有効性を評価し、代替アプローチよりも明確な改善を示します。
Image editing using a pretrained StyleGAN generator has emerged as a powerful paradigm for facial editing, providing disentangled controls over age, expression, illumination, etc. However, the approach cannot be directly adopted for video manipulations. We hypothesize that the main missing ingredient is the lack of fine-grained and disentangled control over face location, face pose, and local facial expressions. In this work, we demonstrate that such a fine-grained control is indeed achievable using pretrained StyleGAN by working across multiple (latent) spaces (namely, the positional space, the W+ space, and the S space) and combining the optimization results across the multiple spaces. Building on this enabling component, we introduce Video2StyleGAN that takes a target image and driving video(s) to reenact the local and global locations and expressions from the driving video in the identity of the target image. We evaluate the effectiveness of our method over multiple challenging scenarios and demonstrate clear improvements over alternative approaches.