敵対的生成ネットワーク(GAN)は、単純で比較的低次元のランダムな分布と、画像空間内の現実的な画像の多様体上の点との間のマッピングを学習できます。ただし、このマッピングのセマンティクスは通常、意味のある画像プロパティを互いに独立して制御できないように絡み合っています。条件付きGAN(cGAN)は、この問題に対する潜在的な解決策を提供し、トレーニング中に特定のセマンティクスを適用できるようにします。ただし、この解決策は、正確なラベルの可用性に依存します。これは、照明条件を表すラベルや背景を説明するラベルなど、取得が困難またはほぼ不可能な場合があります。この論文では、意味的に意味のある変化のもつれを解いた多変量モデルを学習することができ、バイナリ属性ラベルの弱い監視のみを必要とするという利点を持つcGANの新しい定式化を紹介します。たとえば、アンビエント/非アンビエント照明のラベルのみが与えられた場合、私たちの方法は、アイデンティティやポーズなどの他の要因から解き放たれた多変量照明モデルを学習できます。クラス内変動分離(IVI)メソッドと、結果として得られるネットワークIVI-GANを作成します。 CelebAデータセットと合成3Dモーフィング可能モデルデータでIVI-GANを評価し、照明、ポーズ、表情、さらには背景などの属性を解きほぐすことを学びます。
Generative Adversarial Networks (GANs) are able to learn mappings between simple, relatively low-dimensional, random distributions and points on the manifold of realistic images in image-space. The semantics of this mapping, however, are typically entangled such that meaningful image properties cannot be controlled independently of one another. Conditional GANs (cGANs) provide a potential solution to this problem, allowing specific semantics to be enforced during training. This solution, however, depends on the availability of precise labels, which are sometimes difficult or near impossible to obtain, e.g. labels representing lighting conditions or describing the background. In this paper we introduce a new formulation of the cGAN that is able to learn disentangled, multivariate models of semantically meaningful variation and which has the advantage of requiring only the weak supervision of binary attribute labels. For example, given only labels of ambient / non-ambient lighting, our method is able to learn multivariate lighting models disentangled from other factors such as the identity and pose. We coin the method intra-class variation isolation (IVI) and the resulting network the IVI-GAN. We evaluate IVI-GAN on the CelebA dataset and on synthetic 3D morphable model data, learning to disentangle attributes such as lighting, pose, expression, and even the background.