画像から画像への変換は、2つの視覚領域間のマッピングを学習することを目的としています。このタスクには、主に2つの課題があります。1)調整されたトレーニングペアの欠如、2)単一の入力画像からの複数の可能な出力。この作業では、ペアのトレーニング画像なしで多様な出力を生成するためのもつれ解除表現に基づくアプローチを提示します。多様な出力を合成するために、2つのスペースに画像を埋め込むことを提案します。ドメイン間で共有情報をキャプチャするドメイン不変コンテンツスペースと、ドメイン固有の属性スペースです。このモデルは、特定の入力から抽出されたエンコードされたコンテンツ機能と、属性空間からサンプリングされた属性ベクトルを使用して、テスト時にさまざまな出力を合成します。ペアになっていないトレーニングデータを処理するために、解きほぐされた表現に基づくクロスサイクル一貫性損失を導入します。定性的結果は、モデルがペアのトレーニングデータなしで幅広いタスクで多様で現実的な画像を生成できることを示しています。定量的評価のために、ユーザー調査とフレシェ開始距離でリアリズムを測定し、知覚距離メトリック、ジェンセンシャノン発散、および統計的に異なるビンの数で多様性を測定します。
Image-to-image translation aims to learn the mapping between two visual domains. There are two main challenges for this task: 1) lack of aligned training pairs and 2) multiple possible outputs from a single input image. In this work, we present an approach based on disentangled representation for generating diverse outputs without paired training images. To synthesize diverse outputs, we propose to embed images onto two spaces: a domain-invariant content space capturing shared information across domains and a domain-specific attribute space. Our model takes the encoded content features extracted from a given input and attribute vectors sampled from the attribute space to synthesize diverse outputs at test time. To handle unpaired training data, we introduce a cross-cycle consistency loss based on disentangled representations. Qualitative results show that our model can generate diverse and realistic images on a wide range of tasks without paired training data. For quantitative evaluations, we measure realism with user study and Fréchet inception distance, and measure diversity with the perceptual distance metric, Jensen-Shannon divergence, and number of statistically-different bins.