Controllable and Compositional Generation with Latent-Space Energy-Based Models
制御可能な生成は、実際のアプリケーションで深層生成モデルをうまく採用するための重要な要件の1つですが、それでも大きな課題として残っています。特に、新しい概念の組み合わせを生成する構成能力は、ほとんどの現在のモデルでは手の届かないものです。この作業では、エネルギーベースモデル(EBM)を使用して、一連の属性の構成生成を処理します。それらを高解像度の画像生成にスケーラブルにするために、StyleGANなどの事前トレーニングされた生成モデルの潜在空間にEBMを導入します。データと属性の同時分布を表す新しいEBMの定式化を提案し、そこからのサンプリングが常微分方程式(ODE)を解くように定式化される方法を示します。事前にトレーニングされたジェネレーターが与えられた場合、制御可能な生成に必要なのは、属性分類子をトレーニングすることだけです。 ODEを使用したサンプリングは、潜在空間で効率的に実行され、ハイパーパラメータに対して堅牢です。したがって、私たちの方法は単純で、トレーニングが速く、サンプリングが効率的です。実験結果は、私たちの方法が条件付きサンプリングと順次編集の両方で最先端を上回っていることを示しています。構図生成では、私たちの方法は、目に見えない属性の組み合わせのゼロショット生成に優れています。また、論理演算子を使用してエネルギー関数を構成することにより、この作業は、解像度1024x1024の写実的な画像を生成する際にこのような構成性を実現した最初の作業です。
Controllable generation is one of the key requirements for successful adoption of deep generative models in real-world applications, but it still remains as a great challenge. In particular, the compositional ability to generate novel concept combinations is out of reach for most current models. In this work, we use energy-based models (EBMs) to handle compositional generation over a set of attributes. To make them scalable to high-resolution image generation, we introduce an EBM in the latent space of a pre-trained generative model such as StyleGAN. We propose a novel EBM formulation representing the joint distribution of data and attributes together, and we show how sampling from it is formulated as solving an ordinary differential equation (ODE). Given a pre-trained generator, all we need for controllable generation is to train an attribute classifier. Sampling with ODEs is done efficiently in the latent space and is robust to hyperparameters. Thus, our method is simple, fast to train, and efficient to sample. Experimental results show that our method outperforms the state-of-the-art in both conditional sampling and sequential editing. In compositional generation, our method excels at zero-shot generation of unseen attribute combinations. Also, by composing energy functions with logical operators, this work is the first to achieve such compositionality in generating photo-realistic images of resolution 1024x1024.
