生成モデルの最近の重要な進歩にもかかわらず、複数の複雑なオブジェクトレイアウトを表す画像の制御された生成は、依然として難しい問題です。主要な課題の中には、特定のオブジェクトが持つ可能性のある外観の多様性と、その結果、指定されたレイアウトと一致する指数関数的な画像セットがあります。これらの課題に対処するために、レイアウトベースの画像生成のための新しいアプローチを提案します。 Layout2Imと呼びます。粗い空間レイアウト(境界ボックス+オブジェクトカテゴリ)が与えられた場合、このモデルでは、目的の場所に正しいオブジェクトを持つ現実的な画像のセットを生成できます。各オブジェクトの表現は、指定/特定の部分(カテゴリ)と不特定/不確実な部分(外観)に分解されます。カテゴリは単語の埋め込みを使用してエンコードされ、外観は正規分布からサンプリングされた低次元のベクトルに蒸留されます。個々のオブジェクト表現は、コンボリューショナルLSTMを使用して一緒に構成され、完全なレイアウトのエンコードを取得してから、画像にデコードされます。正確で多様な世代を奨励するために、いくつかの損失条件が導入されています。提案されたLayout2Imモデルは、従来の最新技術を大幅に上回り、非常に困難なCOCO-StuffデータセットとVisual Genomeデータセットで報告された最高の開始スコアをそれぞれ24.66%と28.57%向上させました。広範な実験は、複数のオブジェクトを含む複雑で多様な画像を生成する方法の能力も示しています。
Despite significant recent progress on generative models, controlled generation of images depicting multiple and complex object layouts is still a difficult problem. Among the core challenges are the diversity of appearance a given object may possess and, as a result, exponential set of images consistent with a specified layout. To address these challenges, we propose a novel approach for layout-based image generation; we call it Layout2Im. Given the coarse spatial layout (bounding boxes + object categories), our model can generate a set of realistic images which have the correct objects in the desired locations. The representation of each object is disentangled into a specified/certain part (category) and an unspecified/uncertain part (appearance). The category is encoded using a word embedding and the appearance is distilled into a low-dimensional vector sampled from a normal distribution. Individual object representations are composed together using convolutional LSTM, to obtain an encoding of the complete layout, and then decoded to an image. Several loss terms are introduced to encourage accurate and diverse generation. The proposed Layout2Im model significantly outperforms the previous state of the art, boosting the best reported inception score by 24.66% and 28.57% on the very challenging COCO-Stuff and Visual Genome datasets, respectively. Extensive experiments also demonstrate our method's ability to generate complex and diverse images with multiple objects.