GAN 反転は、与えられた画像を、敵対的生成ネットワーク (GAN) の対応する潜在コードに反転することを目的としています。特に、潜在レベルでの属性ベースの画像操作を可能にする、もつれの解けた潜在空間が存在する StyleGAN です。ほとんどの反転手法は畳み込みニューラル ネットワーク (CNN) に基づいて構築されているため、トークン レベルで W^+ 潜在コードを予測するために階層型ビジョン Transformer バックボーンを革新的に転送します。さらに、F 空間でスタイル駆動型マルチスケール適応リファインメント トランスフォーマー (SMART) を適用して、ジェネレーターの中間スタイル機能を洗練します。スタイル特徴をエンコーダーの特徴マップから失われたアイデンティティ情報を取得するクエリとして扱うことにより、SMART は高品質の反転画像を生成するだけでなく、編集タスクにも驚くほど適応できます。次に、StylePrompter がより解きほぐされた W^+ にあることを証明し、SMART の制御可能性を示します。最後に、定量的および定性的な実験により、StylePrompter は再構成の品質と編集可能性のバランスにおいて望ましいパフォーマンスを達成でき、ほとんどの編集に適合するのに十分な「スマート」であり、F が関与する他の反転手法よりも優れていることが実証されています。
GAN inversion aims at inverting given images into corresponding latent codes for Generative Adversarial Networks (GANs), especially StyleGAN where exists a disentangled latent space that allows attribute-based image manipulation at latent level. As most inversion methods build upon Convolutional Neural Networks (CNNs), we transfer a hierarchical vision Transformer backbone innovatively to predict W^+ latent codes at token level. We further apply a Style-driven Multi-scale Adaptive Refinement Transformer (SMART) in F space to refine the intermediate style features of the generator. By treating style features as queries to retrieve lost identity information from the encoder's feature maps, SMART can not only produce high-quality inverted images but also surprisingly adapt to editing tasks. We then prove that StylePrompter lies in a more disentangled W^+ and show the controllability of SMART. Finally, quantitative and qualitative experiments demonstrate that StylePrompter can achieve desirable performance in balancing reconstruction quality and editability, and is "smart" enough to fit into most edits, outperforming other F-involved inversion methods.