制御可能なシーン合成は、基礎となる仕様を満たす3D情報を生成することで構成されます。そのため、これらの仕様は抽象的である必要があります。つまり、詳細な制御に十分なインターフェイスを提供しながら、ユーザーとの対話を容易にする必要があります。シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)で構成されるシーンの表現であり、生成されたコンテンツのセマンティック制御を可能にするため、このタスクに特に適していることが証明されています。このタスクに取り組む以前の作業は、多くの場合、合成データに依存し、オブジェクトメッシュを取得するため、生成機能が自然に制限されます。この問題を回避するために、代わりに、シーングラフからエンドツーエンドで直接形状を生成する最初の作業を提案します。さらに、同じモデルが、それぞれのシーングラフをインターフェイスとして使用して、シーンの変更をサポートしていることを示します。グラフ畳み込みネットワーク(GCN)を活用して、オブジェクトとエッジのカテゴリ、および3D形状とシーンレイアウトの上に変分オートエンコーダーをトレーニングし、新しいシーンと形状の後者のサンプリングを可能にします。
Controllable scene synthesis consists of generating 3D information that satisfy underlying specifications. Thereby, these specifications should be abstract, i.e. allowing easy user interaction, whilst providing enough interface for detailed control. Scene graphs are representations of a scene, composed of objects (nodes) and inter-object relationships (edges), proven to be particularly suited for this task, as they allow for semantic control on the generated content. Previous works tackling this task often rely on synthetic data, and retrieve object meshes, which naturally limits the generation capabilities. To circumvent this issue, we instead propose the first work that directly generates shapes from a scene graph in an end-to-end manner. In addition, we show that the same model supports scene modification, using the respective scene graph as interface. Leveraging Graph Convolutional Networks (GCN) we train a variational Auto-Encoder on top of the object and edge categories, as well as 3D shapes and scene layouts, allowing latter sampling of new scenes and shapes.