GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations
 生成潜在変数モデルは、ロボット工学と強化学習の有望なツールとして登場しています。ただし、これらのドメインのタスクには通常、個別のオブジェクトが含まれますが、ほとんどの最先端の生成モデルは視覚シーンの構成的性質を明示的にキャプチャしません。最近の2つの例外、MONetとIODINEは、シーンを監視なしの方法でオブジェクトに分解します。ただし、それらの基礎となる生成プロセスは、コンポーネントの相互作用を考慮していません。したがって、どちらも新しいシーンの原則的なサンプリングを許可していません。ここでは、シーンコンポーネント間の関係をキャプチャすることにより、シーンの分解と生成の両方が可能な3Dビジュアルシーンの最初のオブジェクト中心の生成モデルであるGENESISを紹介します。 GENESISは、償却された方法で連続的に推論されるか、自己回帰事前分布からサンプリングされるオブジェクト中心の潜在変数のセットからデコードされる画像上の空間GMMをパラメーター化します。 GENESISをいくつかの公開されているデータセットでトレーニングし、シーン生成、分解、半教師あり学習でのパフォーマンスを評価します。
Generative latent-variable models are emerging as promising tools in robotics and reinforcement learning. Yet, even though tasks in these domains typically involve distinct objects, most state-of-the-art generative models do not explicitly capture the compositional nature of visual scenes. Two recent exceptions, MONet and IODINE, decompose scenes into objects in an unsupervised fashion. Their underlying generative processes, however, do not account for component interactions. Hence, neither of them allows for principled sampling of novel scenes. Here we present GENESIS, the first object-centric generative model of 3D visual scenes capable of both decomposing and generating scenes by capturing relationships between scene components. GENESIS parameterises a spatial GMM over images which is decoded from a set of object-centric latent variables that are either inferred sequentially in an amortised fashion or sampled from an autoregressive prior. We train GENESIS on several publicly available datasets and evaluate its performance on scene generation, decomposition, and semi-supervised learning.
updated: Mon Nov 23 2020 10:31:22 GMT+0000 (UTC)
published: Tue Jul 30 2019 16:22:39 GMT+0000 (UTC)
