Unpaired Image-to-Image Translation via Latent Energy Transport
画像から画像への変換は、2つのビジュアルドメイン間で識別可能なターゲットスタイルに変換しながら、ソースコンテンツを保持することを目的としています。ほとんどの作品は、周囲の画像空間で敵対的な学習を適用します。これは、計算コストが高く、トレーニングが難しい場合があります。この論文では、このタスクのために事前に訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を展開することを提案します。事前にトレーニングされたオートエンコーダは、潜在コード抽出と画像再構成ワーカーの両方として機能します。私たちのモデルLETITは、2つのドメインが同じ潜在空間を共有し、潜在表現がコンテンツコードとドメイン固有のスタイルコードとして暗黙的に分解されるという仮定に基づいています。 2つのコードを明示的に抽出し、適応インスタンスの正規化を適用してそれらを組み合わせる代わりに、潜在的なEBMは、コンテンツコードを保持しながら、ソーススタイルコードをターゲットスタイルコードに転送することを暗黙的に学習できます。これは、既存の画像変換方法よりも優れています。この単純化されたソリューションは、片側のペアになっていない画像変換設定でもより効率的です。定性的および定量的な比較は、優れた翻訳品質とコンテンツ保存の忠実性を示しています。私たちのモデルは、私たちの知る限り、1024×1024の解像度の対になっていない画像の翻訳に適用できる最初のモデルです。
Image-to-image translation aims to preserve source contents while translating to discriminative target styles between two visual domains. Most works apply adversarial learning in the ambient image space, which could be computationally expensive and challenging to train. In this paper, we propose to deploy an energy-based model (EBM) in the latent space of a pretrained autoencoder for this task. The pretrained autoencoder serves as both a latent code extractor and an image reconstruction worker. Our model, LETIT, is based on the assumption that two domains share the same latent space, where latent representation is implicitly decomposed as a content code and a domain-specific style code. Instead of explicitly extracting the two codes and applying adaptive instance normalization to combine them, our latent EBM can implicitly learn to transport the source style code to the target style code while preserving the content code, an advantage over existing image translation methods. This simplified solution is also more efficient in the one-sided unpaired image translation setting. Qualitative and quantitative comparisons demonstrate superior translation quality and faithfulness for content preservation. Our model is the first to be applicable to 1024×1024-resolution unpaired image translation to the best of our knowledge.
updated: Sun May 23 2021 19:54:38 GMT+0000 (UTC)
published: Tue Dec 01 2020 17:18:58 GMT+0000 (UTC)
