arXiv reaDer
展開中の自己監視ポリシーの適応
Self-Supervised Policy Adaptation during Deployment
ほとんどの現実世界のシナリオでは、ある環境で強化学習によってトレーニングされたポリシーを、別の、場合によってはまったく異なる環境に展開する必要があります。ただし、さまざまな環境にまたがる一般化は難しいことが知られています。自然な解決策は、新しい環境に展開した後もトレーニングを継続することですが、新しい環境が報酬シグナルを提供しない場合、これを行うことはできません。私たちの仕事は、自己監視の使用を調査して、ポリシーが報酬を使用せずに展開後もトレーニングを継続できるようにします。以前の方法では、新しい環境の変更を明示的に予測していますが、それらの変更に関する事前の知識はまだなく、大幅な改善が得られると想定しています。経験的評価は、DeepMind ControlスイートやViZDoomのさまざまなシミュレーション環境、および継続的に変化する環境での実際のロボット操作タスクで実行され、キャリブレーションされていないカメラから観察されます。私たちの方法は、さまざまなタスクにわたって36の環境のうち31で一般化を改善し、大部分の環境でドメインのランダム化よりも優れています。
In most real world scenarios, a policy trained by reinforcement learning in one environment needs to be deployed in another, potentially quite different environment. However, generalization across different environments is known to be hard. A natural solution would be to keep training after deployment in the new environment, but this cannot be done if the new environment offers no reward signal. Our work explores the use of self-supervision to allow the policy to continue training after deployment without using any rewards. While previous methods explicitly anticipate changes in the new environment, we assume no prior knowledge of those changes yet still obtain significant improvements. Empirical evaluations are performed on diverse simulation environments from DeepMind Control suite and ViZDoom, as well as real robotic manipulation tasks in continuously changing environments, taking observations from an uncalibrated camera. Our method improves generalization in 31 out of 36 environments across various tasks and outperforms domain randomization on a majority of environments.
updated: Thu Dec 10 2020 19:01:06 GMT+0000 (UTC)
published: Wed Jul 08 2020 17:56:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト