arXiv reaDer
ISF-GAN:高解像度の画像から画像への変換のための暗黙的なスタイル関数
ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image Translation
最近、事前に訓練された無条件の画像ジェネレータ(例えば、SystemGAN)を使用する画像編集方法への関心が高まっている。ただし、これらの方法を適用して画像を複数の視覚領域に変換することは、依然として困難です。既存の作品は、画像のドメイン不変部分(たとえば、人間の顔の翻訳におけるアイデンティティ)を保持しないことが多く、通常、複数のドメインを処理しないか、マルチモーダル翻訳を許可しません。この作業は、事前にトレーニングされた無条件のジェネレーターからマルチモーダルおよびマルチドメインの画像から画像への変換を簡単に実現するための陰関数(ISF)を提案します。 ISFは、入力潜在コードのセマンティクスを操作して、そこから生成された画像を目的の視覚領域に配置します。人間の顔と動物の操作における私たちの結果は、ベースラインよりも大幅に改善された結果を示しています。私たちのモデルは、事前にトレーニングされた無条件のGANを使用して、高解像度で費用効果の高いマルチモーダル教師なし画像間変換を可能にします。コードとデータは、https://github.com/yhlleo/stylegan-mmuitで入手できます。
Recently, there has been an increasing interest in image editing methods that employ pre-trained unconditional image generators (e.g., StyleGAN). However, applying these methods to translate images to multiple visual domains remains challenging. Existing works do not often preserve the domain-invariant part of the image (e.g., the identity in human face translations), they do not usually handle multiple domains, or do not allow for multi-modal translations. This work proposes an implicit style function (ISF) to straightforwardly achieve multi-modal and multi-domain image-to-image translation from pre-trained unconditional generators. The ISF manipulates the semantics of an input latent code to make the image generated from it lying in the desired visual domain. Our results in human face and animal manipulations show significantly improved results over the baselines. Our model enables cost-effective multi-modal unsupervised image-to-image translations at high resolution using pre-trained unconditional GANs. The code and data are available at: https://github.com/yhlleo/stylegan-mmuit.
updated: Wed Feb 23 2022 07:23:19 GMT+0000 (UTC)
published: Sun Sep 26 2021 04:51:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト