敵対的生成ネットワーク(GAN)は、写真のようにリアルな画像を生成できるようになりました。ただし、画像コンテンツを最適に制御する方法は、未解決の課題です。 LatentKeypointGANを紹介します。これは、生成されたオブジェクトとそれぞれのパーツの位置とスタイルを制御する、一連のキーポイントと関連する外観の埋め込みを内部条件とする2段階のGANです。私たちが取り組む主な困難は、ドメインの知識と監視信号がほとんどない状態で、画像を空間的要因と外観要因に解きほぐすことです。 LatentKeypointGANは、異なる画像から目と口を組み合わせてポートレートを生成するなど、キーポイントの埋め込みを再配置および交換することで、生成された画像を再配置するために使用できる解釈可能な潜在空間を提供することを、ユーザー調査と定量的実験で示します。 。特に、私たちの方法は自己監視型であるためラベルを必要とせず、それによってポートレート、屋内の部屋、全身の人間のポーズの編集など、さまざまなアプリケーションドメインに適用されます。
Generative adversarial networks (GANs) can now generate photo-realistic images. However, how to best control the image content remains an open challenge. We introduce LatentKeypointGAN, a two-stage GAN internally conditioned on a set of keypoints and associated appearance embeddings providing control of the position and style of the generated objects and their respective parts. A major difficulty that we address is disentangling the image into spatial and appearance factors with little domain knowledge and supervision signals. We demonstrate in a user study and quantitative experiments that LatentKeypointGAN provides an interpretable latent space that can be used to re-arrange the generated images by re-positioning and exchanging keypoint embeddings, such as generating portraits by combining the eyes, and mouth from different images. Notably, our method does not require labels as it is self-supervised and thereby applies to diverse application domains, such as editing portraits, indoor rooms, and full-body human poses.