アクション条件付きダイナミクスを学習するためのオブジェクトベースのアプローチは、一般化と解釈可能性の見込みを実証しています。ただし、既存のアプローチでは、複数の動的オブジェクトを使用する一般的な環境では、構造上の制限と最適化の問題が発生します。この論文では、マルチレベル抽象化オブジェクト指向予測(MAOP)と呼ばれる新しい自己監視学習フレームワークを提示します。これは、生の視覚的観察から効率的なオブジェクトベースのダイナミクス学習を可能にする3レベルの学習アーキテクチャを採用しています。また、インスタンスレベルのダイナミクス学習をサポートし、部分的な可観測性を処理するために、MAOPの時空間関係推論メカニズムを設計します。私たちの結果は、MAOPが学習環境モデルの新しい環境でのサンプル効率と一般化の点で以前の方法を大幅に上回ることを示しています。また、学習したダイナミクスモデルにより、実際の環境モデルに匹敵する、見えない環境での効率的な計画が可能になることも実証します。さらに、MAOPは意味的にも視覚的にも解釈可能な解きほぐされた表現を学習します。
Object-based approaches for learning action-conditioned dynamics has demonstrated promise for generalization and interpretability. However, existing approaches suffer from structural limitations and optimization difficulties for common environments with multiple dynamic objects. In this paper, we present a novel self-supervised learning framework, called Multi-level Abstraction Object-oriented Predictor (MAOP), which employs a three-level learning architecture that enables efficient object-based dynamics learning from raw visual observations. We also design a spatial-temporal relational reasoning mechanism for MAOP to support instance-level dynamics learning and handle partial observability. Our results show that MAOP significantly outperforms previous methods in terms of sample efficiency and generalization over novel environments for learning environment models. We also demonstrate that learned dynamics models enable efficient planning in unseen environments, comparable to true environment models. In addition, MAOP learns semantically and visually interpretable disentangled representations.