強化学習(RL)に関する最近の研究は、訓練されたエージェントが悪意を持って作成された敵対サンプルに対して脆弱であることを示唆しています。この作業では、そのようなサンプルをホワイトボックスおよびグレーボックス攻撃から、攻撃者がエージェント、トレーニングパラメーター、およびトレーニング方法の知識を持たない強力なブラックボックスケースに一般化できる方法を示します。シーケンスツーシーケンスモデルを使用して、トレーニングを受けたエージェントが行う単一のアクションまたは将来のアクションのシーケンスを予測します。まず、エージェントからの時系列情報に基づいた近似モデルを示し、さまざまなゲームとRLアルゴリズムのブラックボックス設定で、RLエージェントの将来のアクションを高精度で一貫して予測します。第二に、敵対的なサンプルはターゲットモデルからRLエージェントに転送できますが、ランダムなガウスノイズをわずかに上回ることが多いことがわかります。これは、そのようなエージェントに関する以前の研究における深刻な方法論的欠陥を強調しています。ランダムな妨害は、評価のベースラインとしてとられるべきでした。第三に、RLエージェントのブラックボックス攻撃における敵対的なサンプルの新しい使用法を提案します。特定の時間遅延の後、訓練されたエージェントを誤動作させるために使用できます。これは、まったく新しいタイプの攻撃のようです。潜在的に、攻撃者はRLエージェントによって制御されるデバイスを時限爆弾として使用できます。
Recent research on reinforcement learning (RL) has suggested that trained agents are vulnerable to maliciously crafted adversarial samples. In this work, we show how such samples can be generalised from White-box and Grey-box attacks to a strong Black-box case, where the attacker has no knowledge of the agents, their training parameters and their training methods. We use sequence-to-sequence models to predict a single action or a sequence of future actions that a trained agent will make. First, we show our approximation model, based on time-series information from the agent, consistently predicts RL agents' future actions with high accuracy in a Black-box setup on a wide range of games and RL algorithms. Second, we find that although adversarial samples are transferable from the target model to our RL agents, they often outperform random Gaussian noise only marginally. This highlights a serious methodological deficiency in previous work on such agents; random jamming should have been taken as the baseline for evaluation. Third, we propose a novel use for adversarial samplesin Black-box attacks of RL agents: they can be used to trigger a trained agent to misbehave after a specific time delay. This appears to be a genuinely new type of attack. It potentially enables an attacker to use devices controlled by RL agents as time bombs.