深い生成モデルは、観測されたデータが生成されたプロセスを回復しようとします。新しいサンプルを合成したり、後で表現を抽出したりするために使用できます。画像の領域で成功するアプローチは、いくつかのコアとなる誘導バイアスによって推進されます。しかし、人間がオブジェクトの観点からビジュアルシーンを構成する構成的な方法を説明するバイアスは、見過ごされがちです。この作業では、生成敵対的ネットワーク(GAN)の誘導バイアスとしてオブジェクトの構成性を調査します。この誘導バイアスを組み込む標準ジェネレーターの最小限の変更を提示し、オブジェクトの構成として画像を生成することを確実に学習することを見つけます。この一般的な設計をバックボーンとして使用して、オブジェクトと背景の間の依存関係を組み込むための2つの便利な拡張機能を提案します。いくつかのマルチオブジェクト画像データセットに対するアプローチを幅広く評価し、表現学習目的で構造を組み込むことのメリットを強調します。特に、構造化GANは、参照分布により忠実なマルチオブジェクトイメージを生成するのに優れていることがわかりました。さらに、学習された生成プロセスの構造を活用することにより、学習された生成モデルを「反転」して、教師なしインスタンスセグメンテーションを実行する方法を示します。挑戦的なCLEVRデータセットについて、私たちのアプローチが画像生成に対する他の最近の純粋に監視されていないオブジェクト中心のアプローチをどのように改善できるかが示されています。
Deep generative models seek to recover the process with which the observed data was generated. They may be used to synthesize new samples or to subsequently extract representations. Successful approaches in the domain of images are driven by several core inductive biases. However, a bias to account for the compositional way in which humans structure a visual scene in terms of objects has frequently been overlooked. In this work, we investigate object compositionality as an inductive bias for Generative Adversarial Networks (GANs). We present a minimal modification of a standard generator to incorporate this inductive bias and find that it reliably learns to generate images as compositions of objects. Using this general design as a backbone, we then propose two useful extensions to incorporate dependencies among objects and background. We extensively evaluate our approach on several multi-object image datasets and highlight the merits of incorporating structure for representation learning purposes. In particular, we find that our structured GANs are better at generating multi-object images that are more faithful to the reference distribution. More so, we demonstrate how, by leveraging the structure of the learned generative process, one can `invert' the learned generative model to perform unsupervised instance segmentation. On the challenging CLEVR dataset, it is shown how our approach is able to improve over other recent purely unsupervised object-centric approaches to image generation.