このペーパーでは、シーンをグローバルにモデル化するのではなく、エンティティとローカルの相互作用の観点からシーンをモデル化することが、学習者がこれまでに経験したことのない組み合わせ空間での物理タスクの一般化に大きな利点をもたらすという仮説を検証します。オブジェクト中心の知覚、予測、および計画(OP3)を提示します。これは、知識の及ぶ限り、監視なしで生の視覚観測からエンティティ表現を取得するモデルベースの強化学習のための最初の完全確率エンティティ中心動的潜在変数フレームワークです。それらを使用して、予測と計画を行います。 OP3は、エンティティの抽象化(同じローカルスコープの関数を使用した各エンティティ表現の対称処理)を適用します。これにより、トレーニング中のものとは異なるオブジェクトの数と構成をモデル化するようにスケーリングできます。これらのエンティティ表現を環境内の実際のオブジェクトに固定するという主要な技術的課題を解決する私たちのアプローチは、この変数バインディング問題を推論問題としてフレーム化することであり、時間的連続性とインタラクティブフィードバックを使用してオブジェクトに関する情報をバインドするインタラクティブな推論アルゴリズムを開発しますエンティティ変数のプロパティ。ブロックスタッキングタスクでは、OP3は新しいブロック構成とトレーニング中に観察されるよりも多くのオブジェクトに一般化し、オブジェクト監視へのアクセスを想定し、最新のビデオ予測モデルよりも2〜3倍高い精度を実現するoracleモデルよりも優れています。エンティティの抽象化を示しません。
This paper tests the hypothesis that modeling a scene in terms of entities and their local interactions, as opposed to modeling the scene globally, provides a significant benefit in generalizing to physical tasks in a combinatorial space the learner has not encountered before. We present object-centric perception, prediction, and planning (OP3), which to the best of our knowledge is the first fully probabilistic entity-centric dynamic latent variable framework for model-based reinforcement learning that acquires entity representations from raw visual observations without supervision and uses them to predict and plan. OP3 enforces entity-abstraction -- symmetric processing of each entity representation with the same locally-scoped function -- which enables it to scale to model different numbers and configurations of objects from those in training. Our approach to solving the key technical challenge of grounding these entity representations to actual objects in the environment is to frame this variable binding problem as an inference problem, and we develop an interactive inference algorithm that uses temporal continuity and interactive feedback to bind information about object properties to the entity variables. On block-stacking tasks, OP3 generalizes to novel block configurations and more objects than observed during training, outperforming an oracle model that assumes access to object supervision and achieving two to three times better accuracy than a state-of-the-art video prediction model that does not exhibit entity abstraction.