Structured Object-Aware Physics Prediction for Video Modeling and Planning
 人間が物理的なシステムを観察すると、複雑で以前は見えなかった相互作用がある環境でも、オブジェクトを簡単に特定し、相互作用を理解し、将来の動作を予測できます。ただし、コンピューターの場合、監視されていない方法でビデオからそのようなモデルを学習することは、未解決の研究問題です。この論文では、オブジェクトとその位置、速度、および相互作用について明示的に推論する、ビデオ用の新しい状態空間モデルであるSTOVEを提示します。これは、イメージモデルとダイナミクスモデルを構成的に組み合わせることで構築され、トレーニングの推論、加速、および正規化にダイナミクスモデルを再利用することにより、以前の作業を改善します。 STOVEは、数百のタイムステップにわたる説得力のある物理的挙動でビデオを予測し、以前の教師なしモデルよりも優れており、教師付きベースラインのパフォーマンスにさえ近づきます。さらに、相互作用の激しいオブジェクトを使用したタスクでのサンプルベースの効率的なモデルベース制御のシミュレーターとしてのモデルの強さを実証します。
When humans observe a physical system, they can easily locate objects, understand their interactions, and anticipate future behavior, even in settings with complicated and previously unseen interactions. For computers, however, learning such models from videos in an unsupervised fashion is an unsolved research problem. In this paper, we present STOVE, a novel state-space model for videos, which explicitly reasons about objects and their positions, velocities, and interactions. It is constructed by combining an image model and a dynamics model in compositional manner and improves on previous work by reusing the dynamics model for inference, accelerating and regularizing training. STOVE predicts videos with convincing physical behavior over hundreds of timesteps, outperforms previous unsupervised models, and even approaches the performance of supervised baselines. We further demonstrate the strength of our model as a simulator for sample efficient model-based control in a task with heavily interacting objects.
updated: Wed Feb 12 2020 09:38:20 GMT+0000 (UTC)
published: Sun Oct 06 2019 11:48:26 GMT+0000 (UTC)
