SIMONe: 教師なしビデオ分解によるビュー不変で時間的に抽象化されたオブジェクト表現
SIMONe: View-Invariant, Temporally-Abstracted Object Representations via Unsupervised Video Decomposition
エージェントが構成要素の観点からシーンについて推論できるようにするために、特定のシーンの構成構造 (特に、シーンを構成するオブジェクトの構成と特性) を抽出したいと考えています。この問題は、2 つの変数が共同してエージェントの観測値を生成するため、エージェントの位置/視点を推定しながらシーン構造を推測する必要がある場合に特に困難です。この問題に対する教師なし変分アプローチを紹介します。さまざまなシーンに存在する共有構造を利用して、モデルは RGB ビデオ入力のみから 2 組の潜在表現を推測することを学習します。視点などのグローバルな時不変要素に対応する「フレーム」潜在のセットと同様に。この潜在の因数分解により、モデル SIMONe は、視点に依存しないアロセントリックな方法でオブジェクトの属性を表すことができます。さらに、オブジェクトのダイナミクスを解きほぐし、それらの軌跡を時間抽象化されたビュー不変のオブジェクトごとのプロパティとして要約することができます。プロシージャルに生成された 3 つのビデオ データセットで、これらの機能と、ビュー合成とインスタンス セグメンテーションに関するモデルのパフォーマンスを示します。
To help agents reason about scenes in terms of their building blocks, we wish to extract the compositional structure of any given scene (in particular, the configuration and characteristics of objects comprising the scene). This problem is especially difficult when scene structure needs to be inferred while also estimating the agent's location/viewpoint, as the two variables jointly give rise to the agent's observations. We present an unsupervised variational approach to this problem. Leveraging the shared structure that exists across different scenes, our model learns to infer two sets of latent representations from RGB video input alone: a set of "object" latents, corresponding to the time-invariant, object-level contents of the scene, as well as a set of "frame" latents, corresponding to global time-varying elements such as viewpoint. This factorization of latents allows our model, SIMONe, to represent object attributes in an allocentric manner which does not depend on viewpoint. Moreover, it allows us to disentangle object dynamics and summarize their trajectories as time-abstracted, view-invariant, per-object properties. We demonstrate these capabilities, as well as the model's performance in terms of view synthesis and instance segmentation, across three procedurally generated video datasets.
updated: Mon Jun 07 2021 17:59:23 GMT+0000 (UTC)
published: Mon Jun 07 2021 17:59:23 GMT+0000 (UTC)
