Unsupervised Multi-Domain Multimodal Image-to-Image Translation with Explicit Domain-Constrained Disentanglement
 過去数年間、画像から画像への翻訳が大きな注目を集めています。これは、あるドメインの画像を別のドメインの特定の参照画像に変換することを目的としています。その効果と効率により、多くのアプリケーションは画像から画像への変換の問題として定式化できます。ただし、画像から画像への変換には3つの主な課題が残っています。1)異なるタスクに対応する大量のトレーニングペアが不足している。 2)単一の入力画像からの複数の可能な出力のあいまいさ。 3)単一ネットワーク内の異なるドメインからの複数のデータセットの同時トレーニングの欠如。また、実験で、コンテンツとスタイルの暗黙的な解きほぐしが予期しない結果につながる可能性があることも発見しました。このペーパーでは、ペアになっていないトレーニングデータを使用して多様な出力を生成し、単一のネットワークを介して異なるドメインからの複数のデータセットの同時トレーニングを可能にする学習の統合フレームワークを提案します。さらに、ドメインの管理情報をより適切に抽出して、解きほぐされた表現を学習し、より良い画像変換を実現する方法も調査します。実験により、提案された方法が最先端の方法よりも優れているか、同等であることが示されています。
Image-to-image translation has drawn great attention during the past few years. It aims to translate an image in one domain to a given reference image in another domain. Due to its effectiveness and efficiency, many applications can be formulated as image-to-image translation problems. However, three main challenges remain in image-to-image translation: 1) the lack of large amounts of aligned training pairs for different tasks; 2) the ambiguity of multiple possible outputs from a single input image; and 3) the lack of simultaneous training of multiple datasets from different domains within a single network. We also found in experiments that the implicit disentanglement of content and style could lead to unexpect results. In this paper, we propose a unified framework for learning to generate diverse outputs using unpaired training data and allow simultaneous training of multiple datasets from different domains via a single network. Furthermore, we also investigate how to better extract domain supervision information so as to learn better disentangled representations and achieve better image translation. Experiments show that the proposed method outperforms or is comparable with the state-of-the-art methods.
updated: Sat Nov 02 2019 01:09:18 GMT+0000 (UTC)
published: Sat Nov 02 2019 01:09:18 GMT+0000 (UTC)
