Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving
画像から画像への翻訳は、GANベースの方法で革命を起こしました。ただし、既存の方法には、ソースドメインのIDを保持する機能がありません。その結果、合成された画像は参照ドメインに過剰に適応することが多く、重要な構造的特性を失い、最適ではない視覚的品質に悩まされる可能性があります。これらの課題を解決するために、画像生成プロセスを強化するために周波数情報を活用する、新しい周波数領域画像変換(FDIT)フレームワークを提案します。私たちの重要なアイデアは、画像を低周波成分と高周波成分に分解することです。高周波機能は、アイデンティティに似たオブジェクト構造をキャプチャします。私たちのトレーニング目標は、ピクセル空間とフーリエスペクトル空間の両方で周波数情報の保存を容易にします。 5つの大規模データセットと画像変換やGAN反転を含む複数のタスクにわたって、FDITを幅広く評価します。広範な実験とアブレーションは、FDITがソース画像のアイデンティティを効果的に保持し、写実的な画像を生成することを示しています。 FDITは最先端のパフォーマンスを確立し、以前の最良の方法と比較して平均FIDスコアを5.6%削減します。
Image-to-image translation has been revolutionized with GAN-based methods. However, existing methods lack the ability to preserve the identity of the source domain. As a result, synthesized images can often over-adapt to the reference domain, losing important structural characteristics and suffering from suboptimal visual quality. To solve these challenges, we propose a novel frequency domain image translation (FDIT) framework, exploiting frequency information for enhancing the image generation process. Our key idea is to decompose the image into low-frequency and high-frequency components, where the high-frequency feature captures object structure akin to the identity. Our training objective facilitates the preservation of frequency information in both pixel space and Fourier spectral space. We broadly evaluate FDIT across five large-scale datasets and multiple tasks including image translation and GAN inversion. Extensive experiments and ablations show that FDIT effectively preserves the identity of the source image, and produces photo-realistic images. FDIT establishes state-of-the-art performance, reducing the average FID score by 5.6% compared to the previous best method.
updated: Thu Aug 05 2021 03:33:15 GMT+0000 (UTC)
published: Fri Nov 27 2020 08:58:56 GMT+0000 (UTC)
