多数のエージェントに対するサンプルの効率とスケーラビリティは、マルチエージェント強化学習システムの2つの重要な目標です。最近の研究により、すべての観察と行動に依存する深いネット評論家を活用することで、単一のエージェントの観点から環境の非定常性に対処し、これらの目標に近づきました。批評家の入力は、ユーザーが指定した順序でエージェントの観察とアクションを連結します。ただし、ディープネットは順列不変ではないため、環境が同一のままであっても、順列入力は批評家の出力を変更します。この非効率性を回避するために、エージェントの順列に関係なく同一の出力を生成する「順列不変批評家」(PIC)を提案します。この一貫した表現により、モデルは30倍以上のエージェントにスケールし、困難なマルチエージェントパーティクル環境(MPE)で15%から50%のテストエピソード報酬の改善を達成できます。
Sample efficiency and scalability to a large number of agents are two important goals for multi-agent reinforcement learning systems. Recent works got us closer to those goals, addressing non-stationarity of the environment from a single agent's perspective by utilizing a deep net critic which depends on all observations and actions. The critic input concatenates agent observations and actions in a user-specified order. However, since deep nets aren't permutation invariant, a permuted input changes the critic output despite the environment remaining identical. To avoid this inefficiency, we propose a 'permutation invariant critic' (PIC), which yields identical output irrespective of the agent permutation. This consistent representation enables our model to scale to 30 times more agents and to achieve improvements of test episode reward between 15% to 50% on the challenging multi-agent particle environment (MPE).