敵対的なポリシー: 深層強化学習を攻撃する
Adversarial Policies: Attacking Deep Reinforcement Learning
深層強化学習(RL)ポリシーは、分類器の敵対的な例と同様に、観測に対する敵対的な摂動に対して脆弱であることが知られている。しかし、攻撃者は通常、他のエージェントの観測を直接修正することはできない。このことは次のような疑問につながるかもしれない: 敵対的である自然な観測を生成するように、マルチエージェント環境で動作する敵対的なポリシーを選択するだけで、RLエージェントを攻撃することは可能なのだろうか? 自己プレーで訓練された最新の犠牲者が相手に対してロバストになるように自己プレーで訓練されている場合に、予知的観測を持つ模擬ヒューマノイドロボットの間のゼロサムゲームにおいて、敵対的なポリシーが存在することを実証する。本研究では、このようなポリシーは被害者には確実に勝つが、一見ランダムで協調性のない行動を生成する。本研究では、このようなポリシーが高次元環境でより成功し、被害者が普通の相手と対戦した場合と比べて、被害者ポリシーネットワークの活性化が大幅に異なることを発見した。動画は で見ることができる。
Deep reinforcement learning (RL) policies are known to be vulnerable to adversarial perturbations to their observations, similar to adversarial examples for classifiers. However, an attacker is not usually able to directly modify another agent's observations. This might lead one to wonder: is it possible to attack an RL agent simply by choosing an adversarial policy acting in a multi-agent environment so as to create natural observations that are adversarial? We demonstrate the existence of adversarial policies in zero-sum games between simulated humanoid robots with proprioceptive observations, against state-of-the-art victims trained via self-play to be robust to opponents. The adversarial policies reliably win against the victims but generate seemingly random and uncoordinated behavior. We find that these policies are more successful in high-dimensional environments, and induce substantially different activations in the victim policy network than when the victim plays against a normal opponent. Videos are available at
updated: Tue Feb 11 2020 19:54:47 GMT+0000 (UTC)
published: Sat May 25 2019 15:23:19 GMT+0000 (UTC)
