arXiv reaDer
Ghost in the Minecraft: テキストベースの知識と記憶を備えた大規模な言語モデルを介した、オープンワールド環境で一般的に機能するエージェント
Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory
Minecraft の魅惑的な領域は、オープンワールド環境で機能するインテリジェント エージェントを開発するための豊富なプラットフォームとして、近年大きな研究関心を集めています。しかし、現在の研究状況は主に、人気のある「ObtainDiamond」タスクなどの特定の目的に焦点を当てており、より広範囲のタスクへの効果的な一般化はまだ示されていません。さらに、「ObtainDiamond」タスクの現在の主要な成功率は約 20% であり、既存の手法で使用されている強化学習 (RL) ベースのコントローラーの限界を浮き彫りにしています。これらの課題に取り組むために、Ghost in the Minecraft (GITM) を導入します。これは、Minecraft で General Capable Agent (GCA) を作成することを目的として、大規模言語モデル (LLM) とテキストベースの知識およびメモリを統合する新しいフレームワークです。これらのエージェントは、LLM の論理機能と常識機能を備えており、テキストベースの対話により、複雑で報酬が少ない環境を巧みにナビゲートできます。私たちは一連の構造化されたアクションを開発し、LLM を活用してエージェントが実行するアクション プランを生成します。結果として得られた LLM ベースのエージェントは、以前の方法を大幅に上回り、「ObtainDiamond」タスクの成功率で +47.5% という顕著な向上を達成し、従来の RL ベースのコントローラーと比較して優れた堅牢性を実証しました。特に、当社のエージェントは、Minecraft オーバーワールド テクノロジー ツリー内のすべてのアイテムを最初に調達し、その広範な機能を実証しています。 GITM はトレーニングに GPU を必要としませんが、32 個の CPU コアを備えた単一の CPU ノードで十分です。この研究は、長期にわたる複雑なタスクを処理し、オープンワールド環境における不確実性に適応するための有能なエージェントを開発する際の LLM の可能性を示しています。プロジェクト Web サイト (https://github.com/OpenGVLab/GITM) を参照してください。
The captivating realm of Minecraft has attracted substantial research interest in recent years, serving as a rich platform for developing intelligent agents capable of functioning in open-world environments. However, the current research landscape predominantly focuses on specific objectives, such as the popular "ObtainDiamond" task, and has not yet shown effective generalization to a broader spectrum of tasks. Furthermore, the current leading success rate for the "ObtainDiamond" task stands at around 20%, highlighting the limitations of Reinforcement Learning (RL) based controllers used in existing methods. To tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel framework integrates Large Language Models (LLMs) with text-based knowledge and memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These agents, equipped with the logic and common sense capabilities of LLMs, can skillfully navigate complex, sparse-reward environments with text-based interactions. We develop a set of structured actions and leverage LLMs to generate action plans for the agents to execute. The resulting LLM-based agent markedly surpasses previous methods, achieving a remarkable improvement of +47.5% in success rate on the "ObtainDiamond" task, demonstrating superior robustness compared to traditional RL-based controllers. Notably, our agent is the first to procure all items in the Minecraft Overworld technology tree, demonstrating its extensive capabilities. GITM does not need any GPU for training, but a single CPU node with 32 CPU cores is enough. This research shows the potential of LLMs in developing capable agents for handling long-horizon, complex tasks and adapting to uncertainties in open-world environments. See the project website at https://github.com/OpenGVLab/GITM.
updated: Thu May 25 2023 17:59:49 GMT+0000 (UTC)
published: Thu May 25 2023 17:59:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト