Discovering and Achieving Goals via World Models
人工エージェントは、監督なしで複雑な視覚環境で多くの多様なタスクを解決することをどのように学ぶことができますか?この質問を2つの問題に分解します。新しい目標を発見することと、それらを確実に達成することを学ぶことです。 Latent Explorer Achiever(LEXA)を紹介します。これは、画像入力からワールドモデルを学習し、それを使用して、想像上のロールアウトからエクスプローラーと達成者のポリシーをトレーニングする、これらの統合ソリューションです。以前に訪れた州に到達することによって探索する以前の方法とは異なり、探索者は先見の明を通じて目に見えない驚くべき状態を発見することを計画し、それは達成者が実践するための多様なターゲットとして使用されます。教師なしフェーズの後、LEXAは、追加の学習なしで、ゼロショットの目標画像として指定されたタスクを解決します。 LEXAは、以前のベンチマークと、4つの標準的なロボット操作および移動ドメインにまたがる合計40のテストタスクを備えた新しい挑戦的なベンチマークの両方で、監視されていない目標達成への以前のアプローチを大幅に上回っています。 LEXAはさらに、複数のオブジェクトを順番に操作する必要がある目標を達成します。最後に、LEXAのスケーラビリティと一般性を示すために、4つの異なる環境にわたって単一のジェネラルエージェントをトレーニングします。のコードとビデオ
How can artificial agents learn to solve many diverse tasks in complex visual environments in the absence of any supervision? We decompose this question into two problems: discovering new goals and learning to reliably achieve them. We introduce Latent Explorer Achiever (LEXA), a unified solution to these that learns a world model from image inputs and uses it to train an explorer and an achiever policy from imagined rollouts. Unlike prior methods that explore by reaching previously visited states, the explorer plans to discover unseen surprising states through foresight, which are then used as diverse targets for the achiever to practice. After the unsupervised phase, LEXA solves tasks specified as goal images zero-shot without any additional learning. LEXA substantially outperforms previous approaches to unsupervised goal-reaching, both on prior benchmarks and on a new challenging benchmark with a total of 40 test tasks spanning across four standard robotic manipulation and locomotion domains. LEXA further achieves goals that require interacting with multiple objects in sequence. Finally, to demonstrate the scalability and generality of LEXA, we train a single general agent across four distinct environments. Code and videos at
updated: Mon Oct 18 2021 17:59:58 GMT+0000 (UTC)
published: Mon Oct 18 2021 17:59:58 GMT+0000 (UTC)
