Minimalistic Attacks: How Little it Takes to Fool a Deep Reinforcement Learning Policy
 最近の研究により、ニューラルネットワークベースのポリシーは、敵対的な例によって簡単にだまされる可能性があることが明らかになりました。ただし、ほとんどの先行研究では、ホワイトボックスポリシーアクセスを想定して、すべてのフレームのすべてのピクセルを摂動する効果を分析していますが、このホワイトペーパーでは、モデルの脆弱性の限界を明らかにすることを目的として、攻撃者生成に対するより制限的な視点を取ります。特に、3つの主要な設定を定義することにより、最小限の攻撃を検討します。(1)ブラックボックスポリシーアクセス:攻撃者はRLポリシーの入力(状態)および出力(アクション確率)のみにアクセスできます。 (2)部分状態の敵:数ピクセルのみが摂動し、極端な場合は単一ピクセルの敵。 (3)戦術的に変更された攻撃:攻撃対象として重要なフレームのみが戦術的に選択されます。 3つの重要な設定に対応することで敵対的な攻撃を定式化し、4つの完全に訓練された最新のポリシーを調べて、6つのAtariゲームでのその効力を調べます。たとえば、ブレイクアウトでは、(i)すべてのポリシーが、入力状態の0.01%を変更するだけで大幅なパフォーマンスの低下を示していること、および(ii)DQNによってトレーニングされたポリシーが摂動によって1%フレームのみに完全に欺かれていることがわかります。
Recent studies have revealed that neural network-based policies can be easily fooled by adversarial examples. However, while most prior works analyze the effects of perturbing every pixel of every frame assuming white-box policy access, in this paper we take a more restrictive view towards adversary generation - with the goal of unveiling the limits of a model's vulnerability. In particular, we explore minimalistic attacks by defining three key settings: (1) black-box policy access: where the attacker only has access to the input (state) and output (action probability) of an RL policy; (2) fractional-state adversary: where only several pixels are perturbed, with the extreme case being a single-pixel adversary; and (3) tactically-chanced attack: where only significant frames are tactically chosen to be attacked. We formulate the adversarial attack by accommodating the three key settings and explore their potency on six Atari games by examining four fully trained state-of-the-art policies. In Breakout, for example, we surprisingly find that: (i) all policies showcase significant performance degradation by merely modifying 0.01% of the input state, and (ii) the policy trained by DQN is totally deceived by perturbation to only 1% frames.
updated: Thu Oct 29 2020 13:40:22 GMT+0000 (UTC)
published: Sun Nov 10 2019 04:39:56 GMT+0000 (UTC)
