Generative Adversarial Networks(GAN)の大幅な進歩により、自然言語の記述に基づいて、単一オブジェクトの驚くほどリアルな画像を生成することが可能になりました。しかし、明示的な相互作用を伴う複数のエンティティの画像の制御された生成は、シーンレイアウトの生成がダイバーシティオブジェクトのスケーリングと空間的位置の影響を強く受けるため、依然として達成が困難です。本論文では、テキストシーングラフからリアルな画像レイアウトを生成するための新しいフレームワークを提案しました。私たちのフレームワークでは、空間的な制約モジュールは、オブジェクトのペアの関係を考慮して、合理的なスケーリングとオブジェクトペアの空間レイアウトに適合するように設計されています。さらに、シーングラフのオブジェクト依存性の観点からペアワイズ空間情報を融合するためのコンテキスト融合モジュールが導入されています。これらの2つのモジュールを使用することにより、提案されたフレームワークは、より一般的なレイアウトを生成する傾向があり、現実的な画像生成に役立ちます。 2つの異なるシーングラフデータセットに関する定量的結果、定性的結果、ユーザー調査を含む実験結果は、シーングラフから複数のオブジェクトを含む複雑で論理的なレイアウトを生成するフレームワークの能力を示しています。
The significant progress on Generative Adversarial Networks (GANs) have made it possible to generate surprisingly realistic images for single object based on natural language descriptions. However, controlled generation of images for multiple entities with explicit interactions is still difficult to achieve due to the scene layout generation heavily suffer from the diversity object scaling and spatial locations. In this paper, we proposed a novel framework for generating realistic image layout from textual scene graphs. In our framework, a spatial constraint module is designed to fit reasonable scaling and spatial layout of object pairs with considering relationship between them. Moreover, a contextual fusion module is introduced for fusing pair-wise spatial information in terms of object dependency in scene graph. By using these two modules, our proposed framework tends to generate more commonsense layout which is helpful for realistic image generation. Experimental results including quantitative results, qualitative results and user studies on two different scene graph datasets demonstrate our proposed framework's ability to generate complex and logical layout with multiple objects from scene graph.