画像から画像への翻訳の最近の進歩は、マルチモーダル翻訳とマルチドメイン翻訳という2つの側面から1対多のマッピングを学習することに焦点を当てています。ただし、既存の方法では2つの観点のうち1つしか考慮されないため、互いの問題を解決できません。この問題に対処するために、これら2つの目的を橋渡しする新しい統一モデルを提案します。最初に、特徴空間での条件付き敵対訓練を備えたエンコーダーデコーダーアーキテクチャーにより、入力画像を潜在表現に解きます。次に、ジェネレーターがランダムなクロスドメイン変換によりマルチマッピングを学習することを推奨します。その結果、潜在表現のさまざまな部分を操作して、マルチモーダルおよびマルチドメイン変換を同時に実行できます。実験は、この方法が最先端の方法よりも優れていることを示しています。
Recent advances of image-to-image translation focus on learning the one-to-many mapping from two aspects: multi-modal translation and multi-domain translation. However, the existing methods only consider one of the two perspectives, which makes them unable to solve each other's problem. To address this issue, we propose a novel unified model, which bridges these two objectives. First, we disentangle the input images into the latent representations by an encoder-decoder architecture with a conditional adversarial training in the feature space. Then, we encourage the generator to learn multi-mappings by a random cross-domain translation. As a result, we can manipulate different parts of the latent representations to perform multi-modal and multi-domain translations simultaneously. Experiments demonstrate that our method outperforms state-of-the-art methods.