現実的で多様な画像を生成するための、シンプルだが効果的な教師なしの方法を紹介します。手動で注釈を付けたクラスラベルを使用せずに、クラス条件付きGANモデルをトレーニングします。その代わり、私たちのモデルは、弁別器の特徴空間でのクラスタリングから自動的に導出されたラベルを条件としています。私たちのクラスタリング手順は自動的に多様なモードを発見し、ジェネレーターがそれらをカバーすることを明示的に要求します。標準モードの折りたたみベンチマークでの実験は、モードの折りたたみに対処する場合、このメソッドがいくつかの競合するメソッドよりも優れていることを示しています。私たちの方法は、ImageNetやPlaces365などの大規模なデータセットでも良好に機能し、以前の方法と比較して、画像の多様性と標準品質の指標の両方が向上しています。
We introduce a simple but effective unsupervised method for generating realistic and diverse images. We train a class-conditional GAN model without using manually annotated class labels. Instead, our model is conditional on labels automatically derived from clustering in the discriminator's feature space. Our clustering step automatically discovers diverse modes, and explicitly requires the generator to cover them. Experiments on standard mode collapse benchmarks show that our method outperforms several competing methods when addressing mode collapse. Our method also performs well on large-scale datasets such as ImageNet and Places365, improving both image diversity and standard quality metrics, compared to previous methods.