ビデオからシステムの監視なしの物理パラメーター推定を実行できるモデルを提案します。シーンのダイナミクスを支配する微分方程式は既知ですが、ラベル付きの状態またはオブジェクトは利用できません。既存の物理的なシーンを理解する方法では、オブジェクトの状態の監視が必要になるか、解釈可能なシステムパラメータと状態を学習するための微分可能な物理学と統合しません。私たちは、インバースグラフィックスとしてのビジョンと微分可能な物理エンジンを統合し、オブジェクトと明示的な状態および速度表現を発見できるようにする、インバースグラフィックスとしての物理アプローチを通じてこの問題に対処します。このフレームワークにより、長期的な外挿ビデオ予測とビジョンベースのモデル予測制御を実行できます。私たちのアプローチは、誘導バイアスとしてモデルにダイナミクスを構築できるため、相互作用するオブジェクト(ボールスプリングや3体の重力システムなど)を含むシステムの長期的な将来のフレーム予測において、関連する教師なしメソッドを大幅に上回ります。さらに、振り子システムの視覚駆動モデルベース制御のデータ効率の良い学習を実証することにより、この緊密な視覚物理学統合の価値を示します。また、コントローラーの解釈可能性が、目標駆動制御およびゼロデータ適応の物理的推論において独自の機能を提供することも示しています。
We propose a model that is able to perform unsupervised physical parameter estimation of systems from video, where the differential equations governing the scene dynamics are known, but labeled states or objects are not available. Existing physical scene understanding methods require either object state supervision, or do not integrate with differentiable physics to learn interpretable system parameters and states. We address this problem through a physics-as-inverse-graphics approach that brings together vision-as-inverse-graphics and differentiable physics engines, enabling objects and explicit state and velocity representations to be discovered. This framework allows us to perform long term extrapolative video prediction, as well as vision-based model-predictive control. Our approach significantly outperforms related unsupervised methods in long-term future frame prediction of systems with interacting objects (such as ball-spring or 3-body gravitational systems), due to its ability to build dynamics into the model as an inductive bias. We further show the value of this tight vision-physics integration by demonstrating data-efficient learning of vision-actuated model-based control for a pendulum system. We also show that the controller's interpretability provides unique capabilities in goal-driven control and physical reasoning for zero-data adaptation.