計画機能を備えたエージェントを構築することは、人工知能を追求する際の主な課題の1つです。ツリーベースの計画方法は、完璧なシミュレーターが利用できるチェスやゴーなどの挑戦的なドメインで大成功を収めています。しかし、実際の問題では、環境を支配するダイナミクスはしばしば複雑で未知です。この研究では、ツリーベースの検索と学習モデルを組み合わせることで、MuZeroアルゴリズムを紹介します。このアルゴリズムは、基礎となるダイナミクスの知識がなくても、挑戦的で視覚的に複雑な領域で超人的なパフォーマンスを実現します。 MuZeroは、反復的に適用されたときに、計画に最も直接関係する量(報酬、アクション選択ポリシー、および価値関数)を予測するモデルを学習します。 57種類のAtariゲーム(モデルベースの計画アプローチが歴史的に苦労してきたAI技術をテストするための標準的なビデオゲーム環境)で評価されたとき、私たちの新しいアルゴリズムは新しい最先端を達成しました。ゲームルールの知識がなくても、囲碁、チェス、将棋で評価した場合、MuZeroは、ゲームルールで提供されたAlphaZeroアルゴリズムの超人的なパフォーマンスと一致しました。
Constructing agents with planning capabilities has long been one of the main challenges in the pursuit of artificial intelligence. Tree-based planning methods have enjoyed huge success in challenging domains, such as chess and Go, where a perfect simulator is available. However, in real-world problems the dynamics governing the environment are often complex and unknown. In this work we present the MuZero algorithm which, by combining a tree-based search with a learned model, achieves superhuman performance in a range of challenging and visually complex domains, without any knowledge of their underlying dynamics. MuZero learns a model that, when applied iteratively, predicts the quantities most directly relevant to planning: the reward, the action-selection policy, and the value function. When evaluated on 57 different Atari games - the canonical video game environment for testing AI techniques, in which model-based planning approaches have historically struggled - our new algorithm achieved a new state of the art. When evaluated on Go, chess and shogi, without any knowledge of the game rules, MuZero matched the superhuman performance of the AlphaZero algorithm that was supplied with the game rules.