arXiv reaDer
画像の反転と編集のためのスタイルトランスフォーマー
Style Transformer for Image Inversion and Editing
既存のGAN反転方法では、信頼性の高い再構築と柔軟な編集を同時に行うための潜在コードを提供できません。このホワイトペーパーでは、歪みが少ないだけでなく、編集の品質と柔軟性が高い、事前トレーニング済みのStyleGANのトランスフォーマーベースの画像反転および編集モデルを紹介します。提案されたモデルは、CNNエンコーダーを使用して、キーおよび値としてマルチスケール画像機能を提供します。一方、ジェネレーターのさまざまなレイヤーに対して決定されるスタイルコードをクエリと見なします。まず、クエリトークンを学習可能なパラメータとして初期化し、それらをW+スペースにマップします。次に、多段階の交互の自己注意と相互注意が利用され、ジェネレータによる入力を反転する目的でクエリが更新されます。さらに、反転コードに基づいて、事前にトレーニングされた潜在分類器を介して参照ベースおよびラベルベースの属性編集を調査し、高品質の結果で柔軟な画像から画像への変換を実現します。広範な実験が行われ、StyleGAN内の反転タスクと編集タスクの両方でより良いパフォーマンスが示されています。
Existing GAN inversion methods fail to provide latent codes for reliable reconstruction and flexible editing simultaneously. This paper presents a transformer-based image inversion and editing model for pretrained StyleGAN which is not only with less distortions, but also of high quality and flexibility for editing. The proposed model employs a CNN encoder to provide multi-scale image features as keys and values. Meanwhile it regards the style code to be determined for different layers of the generator as queries. It first initializes query tokens as learnable parameters and maps them into W+ space. Then the multi-stage alternate self- and cross-attention are utilized, updating queries with the purpose of inverting the input by the generator. Moreover, based on the inverted code, we investigate the reference- and label-based attribute editing through a pretrained latent classifier, and achieve flexible image-to-image translation with high quality results. Extensive experiments are carried out, showing better performances on both inversion and editing tasks within StyleGAN.
updated: Tue Mar 15 2022 14:16:57 GMT+0000 (UTC)
published: Tue Mar 15 2022 14:16:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト