敵対的な攻撃は、最先端の機械学習モデルに重大なセキュリティ脆弱性をさらしています。これらのモデルには、深層強化学習エージェントが含まれます。強化学習エージェントを攻撃するための既存の方法は、攻撃者がターゲットエージェントの学習パラメータまたはエージェントが対話する環境にアクセスできることを前提としています。この作業では、強化学習に固有のスヌーピング脅威モデルと呼ばれる新しいクラスの脅威モデルを提案します。これらのスヌーピング脅威モデルでは、攻撃者はターゲットエージェントの環境と対話する能力がなく、エージェントと環境の間で交換されるアクションと報酬信号を盗聴することしかできません。これらの高度に制約された脅威モデルで動作する敵は、関連タスクでプロキシモデルをトレーニングし、敵の例の転送可能性を活用することにより、ターゲットエージェントに対して破壊的な攻撃を開始できることを示します。
Adversarial attacks have exposed a significant security vulnerability in state-of-the-art machine learning models. Among these models include deep reinforcement learning agents. The existing methods for attacking reinforcement learning agents assume the adversary either has access to the target agent's learned parameters or the environment that the agent interacts with. In this work, we propose a new class of threat models, called snooping threat models, that are unique to reinforcement learning. In these snooping threat models, the adversary does not have the ability to interact with the target agent's environment, and can only eavesdrop on the action and reward signals being exchanged between agent and environment. We show that adversaries operating in these highly constrained threat models can still launch devastating attacks against the target agent by training proxy models on related tasks and leveraging the transferability of adversarial examples.