画像固有の詳細(背景、外観、照明など)を適切に保存して属性編集を可能にする、新しい高忠実度の生成的敵対的ネットワーク(GAN)反転フレームワークを紹介します。最初に、非可逆データ圧縮の観点から、忠実度の高いGAN反転の課題を分析します。ビットレートの低い潜在コードでは、以前の作品では、再構成および編集された画像で忠実度の高い詳細を保持することが困難です。潜在コードのサイズを大きくすると、GAN反転の精度が向上しますが、編集性が低下します。編集性を損なうことなく画像の忠実度を向上させるために、高忠実度の再構成の参照として歪みマップを使用する歪みコンサルテーションアプローチを提案します。歪みコンサルテーションインバージョン(DCI)では、歪みマップは最初に高レートの潜在マップに投影され、次にコンサルテーションフュージョンを介して基本的な低レートの潜在コードをより詳細に補完します。忠実度の高い編集を実現するために、編集された画像と反転画像の間のギャップを埋める、自己監視型トレーニングスキームを備えた適応歪みアライメント(ADA)モジュールを提案します。顔と車の領域での広範な実験は、反転と編集の両方の品質の明らかな改善を示しています。
We present a novel high-fidelity generative adversarial network (GAN) inversion framework that enables attribute editing with image-specific details well-preserved (e.g., background, appearance, and illumination). We first analyze the challenges of high-fidelity GAN inversion from the perspective of lossy data compression. With a low bit-rate latent code, previous works have difficulties in preserving high-fidelity details in reconstructed and edited images. Increasing the size of a latent code can improve the accuracy of GAN inversion but at the cost of inferior editability. To improve image fidelity without compromising editability, we propose a distortion consultation approach that employs a distortion map as a reference for high-fidelity reconstruction. In the distortion consultation inversion (DCI), the distortion map is first projected to a high-rate latent map, which then complements the basic low-rate latent code with more details via consultation fusion. To achieve high-fidelity editing, we propose an adaptive distortion alignment (ADA) module with a self-supervised training scheme, which bridges the gap between the edited and inversion images. Extensive experiments in the face and car domains show a clear improvement in both inversion and editing quality.