人工知能の根本的な問題として、マルチエージェントシステム(MAS)は、主にマルチエージェント強化学習(MARL)技術によって推進され、急速に進歩しています。ただし、以前のMARLメソッドは、主にグリッドワールドのような環境またはゲーム環境に焦点を合わせていました。視覚的に豊かな環境でのMASは、あまり調査されていません。このギャップを狭め、MASにおける知覚の重要な役割を強調するために、マルチエージェントビジュアルナビゲーション(MAVN)用の大規模な3DデータセットCollaVNを提案します。 CollaVNでは、複数のエージェントが協力してフォトリアリスティックな環境をナビゲートし、ターゲットの場所に到達する必要があります。問題をより一般的にするために、さまざまなMAVNバリアントが検討されています。さらに、メモリ増強通信フレームワークが提案されている。各エージェントには、通信情報を永続的に保存するためのプライベート外部メモリが装備されています。これにより、エージェントは過去のコミュニケーション情報をより有効に活用できるようになり、より効率的なコラボレーションと堅牢な長期計画が可能になります。私たちの実験では、いくつかのベースラインと評価指標が設計されています。また、さまざまなMAVNタスク設定にわたって提案されたMARLアプローチの有効性を経験的に検証します。
As a fundamental problem for Artificial Intelligence, multi-agent system (MAS) is making rapid progress, mainly driven by multi-agent reinforcement learning (MARL) techniques. However, previous MARL methods largely focused on grid-world like or game environments; MAS in visually rich environments has remained less explored. To narrow this gap and emphasize the crucial role of perception in MAS, we propose a large-scale 3D dataset, CollaVN, for multi-agent visual navigation (MAVN). In CollaVN, multiple agents are entailed to cooperatively navigate across photo-realistic environments to reach target locations. Diverse MAVN variants are explored to make our problem more general. Moreover, a memory-augmented communication framework is proposed. Each agent is equipped with a private, external memory to persistently store communication information. This allows agents to make better use of their past communication information, enabling more efficient collaboration and robust long-term planning. In our experiments, several baselines and evaluation metrics are designed. We also empirically verify the efficacy of our proposed MARL approach across different MAVN task settings.