arXiv reaDer
マルチエージェント自動カリキュラムからの創発ツールの使用
Emergent Tool Use From Multi-Agent Autocurricula
マルチエージェントの競争、かくれんぼという単純な目標、および大規模な標準的な強化学習アルゴリズムにより、エージェントは複数の異なるラウンドの緊急戦略を誘導する自己監視型の自動カリキュラムを作成し、その多くは高度なツールの使用と調整。環境におけるエージェント戦略の6つの緊急段階の明確な証拠を見つけます。それぞれの段階は、敵チームが適応するための新しい圧力を生み出します。たとえば、エージェントは、可動ボックスを使用してマルチオブジェクトシェルターを構築することを学習します。これにより、エージェントは、ランプを使用して障害を克服できることに気付きます。さらに、環境の複雑さが増すにつれてマルチエージェントの競争が拡大し、内発的動機付けなどの他の自己監視強化学習方法よりもはるかに人間関連のスキルを中心とした行動につながるという証拠を提供します。最後に、ターゲットの機能を定量的に評価する方法として転送と微調整を提案し、ドメイン固有のインテリジェンステストのスイートで、かくれんぼエージェントを固有の動機付けとランダム初期化ベースラインの両方と比較します。
Through multi-agent competition, the simple objective of hide-and-seek, and standard reinforcement learning algorithms at scale, we find that agents create a self-supervised autocurriculum inducing multiple distinct rounds of emergent strategy, many of which require sophisticated tool use and coordination. We find clear evidence of six emergent phases in agent strategy in our environment, each of which creates a new pressure for the opposing team to adapt; for instance, agents learn to build multi-object shelters using moveable boxes which in turn leads to agents discovering that they can overcome obstacles using ramps. We further provide evidence that multi-agent competition may scale better with increasing environment complexity and leads to behavior that centers around far more human-relevant skills than other self-supervised reinforcement learning methods such as intrinsic motivation. Finally, we propose transfer and fine-tuning as a way to quantitatively evaluate targeted capabilities, and we compare hide-and-seek agents to both intrinsic motivation and random initialization baselines in a suite of domain-specific intelligence tests.
updated: Tue Feb 11 2020 00:56:50 GMT+0000 (UTC)
published: Tue Sep 17 2019 00:17:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト