arXiv reaDer
Reinforcement Learning with Perturbed Rewards
 最近の研究では、強化学習(RL)モデルはさまざまなノイズの多いシナリオで脆弱であることが示されています。たとえば、観測された報酬チャネルは、実際にはノイズが発生する場合が多く(たとえば、報酬がセンサーを介して収集される場合)、信頼できない。さらに、ロボット工学などのアプリケーションでは、深層強化学習(DRL)アルゴリズムを操作して、破損した報酬を受け取ることで任意のエラーを生成できます。この論文では、混乱したマトリックスで近似できる、摂動報酬を伴うノイズの多いRL問題を検討します。混乱した報酬のみが観察されるノイズの多い環境でエージェントが学習できる堅牢なRLフレームワークを開発します。ソリューションフレームワークは、既存のRL / DRLアルゴリズムに基づいて構築され、まず、真の分布(たとえば、以前の研究で作成されたゼロ平均ガウスノイズ)を仮定せずに、バイアスのかかったノイズの多い報酬設定に対処します。このソリューションの中心的なアイデアには、報酬の混同マトリックスの推定と、公平な代理報酬のセットの定義が含まれます。アプローチの収束とサンプルの複雑さを証明します。さまざまなDRLプラットフォームでの広範な実験により、推定された代理報酬に基づいて訓練されたポリシーは、より高い期待報酬を達成し、既存のベースラインよりも早く収束することが示されています。たとえば、最新のPPOアルゴリズムでは、5つのAtariゲームの平均スコアがそれぞれ84.6%と80.8%改善され、エラー率はそれぞれ10%と30%です。
Recent studies have shown that reinforcement learning (RL) models are vulnerable in various noisy scenarios. For instance, the observed reward channel is often subject to noise in practice (e.g., when rewards are collected through sensors), and is therefore not credible. In addition, for applications such as robotics, a deep reinforcement learning (DRL) algorithm can be manipulated to produce arbitrary errors by receiving corrupted rewards. In this paper, we consider noisy RL problems with perturbed rewards, which can be approximated with a confusion matrix. We develop a robust RL framework that enables agents to learn in noisy environments where only perturbed rewards are observed. Our solution framework builds on existing RL/DRL algorithms and firstly addresses the biased noisy reward setting without any assumptions on the true distribution (e.g., zero-mean Gaussian noise as made in previous works). The core ideas of our solution include estimating a reward confusion matrix and defining a set of unbiased surrogate rewards. We prove the convergence and sample complexity of our approach. Extensive experiments on different DRL platforms show that trained policies based on our estimated surrogate reward can achieve higher expected rewards, and converge faster than existing baselines. For instance, the state-of-the-art PPO algorithm is able to obtain 84.6% and 80.8% improvements on average score for five Atari games, with error rates as 10% and 30% respectively.
updated: Sat Feb 01 2020 21:15:52 GMT+0000 (UTC)
published: Tue Oct 02 2018 01:43:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト