生成的敵対ネットワーク(GAN)に基づく画像のマルチモーダル生成モデリングの問題を研究します。既存の方法の成功にもかかわらず、彼らはしばしば、視覚データの基礎となる構造またはそのマルチモーダル生成特性を無視します。この問題に対処するために、マルチモーダル画像生成用のディリクレ事前分布を導入します。これにより、新しい潜在ディリクレ割り当てベースのGAN(LDAGAN)が実現します。詳細には、生成プロセスのモデリングのために、LDAGANは各サンプルの生成モードを定義し、どの生成サブプロセスが属するかを決定します。敵対者の訓練の場合、LDAGANは変分期待値最大化(VEM)アルゴリズムを導出してモデルパラメーターを推定します。実世界のデータセットに関する実験結果は、LDAGANが他の既存のGANよりも優れていることを実証しています。
We study the problem of multimodal generative modelling of images based on generative adversarial networks (GANs). Despite the success of existing methods, they often ignore the underlying structure of vision data or its multimodal generation characteristics. To address this problem, we introduce the Dirichlet prior for multimodal image generation, which leads to a new Latent Dirichlet Allocation based GAN (LDAGAN). In detail, for the generative process modelling, LDAGAN defines a generative mode for each sample, determining which generative sub-process it belongs to. For the adversarial training, LDAGAN derives a variational expectation-maximization (VEM) algorithm to estimate model parameters. Experimental results on real-world datasets have demonstrated the outstanding performance of LDAGAN over other existing GANs.