arXiv reaDer
実画像の潜在ベースの編集のためのピボットチューニング
Pivotal Tuning for Latent-based Editing of Real Images
最近、事前にトレーニングされたStyleGANの生成力を活用する高度な顔編集技術の急増が提案されています。この方法で画像を正常に編集するには、まず画像を事前トレーニング済みのジェネレーターのドメインに投影 (または反転) する必要があります。ただし、結局のところ、StyleGANの潜在空間は、歪みと編集可能性の間、つまり元の外観を維持することとその属性の一部を説得力を持って変更することの間の固有のトレードオフを引き起こします。実際には、これは、ジェネレータのドメイン外の顔にIDを保持する顔の潜在空間編集を適用することが依然として難しいことを意味します。このホワイトペーパーでは、このギャップを埋めるためのアプローチを紹介します。私たちの手法はジェネレーターをわずかに変更するため、ドメイン外の画像はドメイン内の潜在コードに忠実にマッピングされます。重要なアイデアは、極めて重要なチューニングです。これは、ドメイン内の潜在領域の編集品質を維持しながら、描写されるアイデンティティと外観を変更する簡単なトレーニングプロセスです。 Pivotal Tuning Inversion(PTI)では、最初の反転された潜在コードがピボットとして機能し、その周りでジェネレーターが微調整されます。同時に、正則化項は、効果をローカルに封じ込めるために、近くのIDをそのまま維持します。この外科的トレーニングプロセスは、編集機能に影響を与えることなく、主にアイデンティティを表す外観機能を変更することになります。メトリックの反転と編集を通じて手法を検証し、最先端の方法よりも好ましいスコアを示します。さらに、よく知られた認識可能なアイデンティティの多数の画像に高度な編集(ポーズ、年齢、表情など)を適用することにより、私たちの手法を定性的に示します。最後に、ヘビーメイク、手の込んだヘアスタイル、ヘッドウェアなど、最先端の方法ではうまく反転および編集できなかった、より難しいケースに対する回復力を示します。
Recently, a surge of advanced facial editing techniques have been proposed that leverage the generative power of a pre-trained StyleGAN. To successfully edit an image this way, one must first project (or invert) the image into the pre-trained generator's domain. As it turns out, however, StyleGAN's latent space induces an inherent tradeoff between distortion and editability, i.e. between maintaining the original appearance and convincingly altering some of its attributes. Practically, this means it is still challenging to apply ID-preserving facial latent-space editing to faces which are out of the generator's domain. In this paper, we present an approach to bridge this gap. Our technique slightly alters the generator, so that an out-of-domain image is faithfully mapped into an in-domain latent code. The key idea is pivotal tuning - a brief training process that preserves the editing quality of an in-domain latent region, while changing its portrayed identity and appearance. In Pivotal Tuning Inversion (PTI), an initial inverted latent code serves as a pivot, around which the generator is fined-tuned. At the same time, a regularization term keeps nearby identities intact, to locally contain the effect. This surgical training process ends up altering appearance features that represent mostly identity, without affecting editing capabilities. We validate our technique through inversion and editing metrics, and show preferable scores to state-of-the-art methods. We further qualitatively demonstrate our technique by applying advanced edits (such as pose, age, or expression) to numerous images of well-known and recognizable identities. Finally, we demonstrate resilience to harder cases, including heavy make-up, elaborate hairstyles and/or headwear, which otherwise could not have been successfully inverted and edited by state-of-the-art methods.
updated: Thu Jun 10 2021 13:47:59 GMT+0000 (UTC)
published: Thu Jun 10 2021 13:47:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト