基礎となる空間構造と構造上のレンダリングをそれぞれ独立して制御できるが、タプルの監視を使用しない、自然画像生成のためのもつれ解除表現の明示的な学習に焦点を当てます。タプルの監視はコストがかかり、時には利用できないこともあるため、この設定は重要です。ただし、タスクは非常に制約されていないため、不適切です。この問題に対処するために、共通の基本構造空間をターゲットドメインと共有する補助ドメインを導入することを提案し、潜在共有スペースを部分的に共有することを想定しています。重要な考え方は、部分的に共有された潜在変数が両方のドメインで同様の基礎となる空間構造を表すように奨励することです。これは、共通のプログレッシブレンダリングアーキテクチャ(PRA)を使用して2つの並列生成ネットワークを設計することで実現します。PRAは、生成ネットワークの動作を制限して、共有の基礎構造をモデル化し、レンダリングと基礎構造の間の空間依存関係をモデル化します。したがって、DSRGAN(基になる構造とレンダリングを解くためのGAN)を提案して、メソッドをインスタンス化します。また、非もつれやすさを定量化するための定量的基準(正規化されたもつれ除去可能性)も提案します。最先端の方法と比較すると、DSRGANが解きほぐし性において著しく優れていることがわかります。
We focus on explicitly learning disentangled representation for natural image generation, where the underlying spatial structure and the rendering on the structure can be independently controlled respectively, yet using no tuple supervision. The setting is significant since tuple supervision is costly and sometimes even unavailable. However, the task is highly unconstrained and thus ill-posed. To address this problem, we propose to introduce an auxiliary domain which shares a common underlying-structure space with the target domain, and we make a partially shared latent space assumption. The key idea is to encourage the partially shared latent variable to represent the similar underlying spatial structures in both domains, while the two domain-specific latent variables will be unavoidably arranged to present renderings of two domains respectively. This is achieved by designing two parallel generative networks with a common Progressive Rendering Architecture (PRA), which constrains both generative networks' behaviors to model shared underlying structure and to model spatially dependent relation between rendering and underlying structure. Thus, we propose DSRGAN (GANs for Disentangling Underlying Structure and Rendering) to instantiate our method. We also propose a quantitative criterion (the Normalized Disentanglability) to quantify disentanglability. Comparison to the state-of-the-art methods shows that DSRGAN can significantly outperform them in disentanglability.