Adaptive Curriculum Generation from Demonstrations for Sim-to-Real Visuomotor Control
 少ない報酬の存在下で強化学習を行うためのデモンストレーションからの適応カリキュラム生成(ACGD)を提案します。 ACGDは、形をした報酬関数を設計するのではなく、デモンストレーションの軌跡からサンプリングする場所と使用するシミュレーションパラメーターのセットを制御することにより、学習者に適切な課題の難易度を適応的に設定します。 ACGDを介してタスクの難易度を徐々に高めながら、シミュレーションでビジョンベースの制御ポリシーをトレーニングすると、ポリシーの実世界への移行が改善されることがわかります。ドメインのランダム化の度合いも、タスクの難易度によって徐々に増加します。ピックアンド積み込み及びブロックスタッキング:我々は2つの実世界の操作タスクのためのゼロショットの転送を示しています。結果を示すビデオはで見つけることができます
We propose Adaptive Curriculum Generation from Demonstrations (ACGD) for reinforcement learning in the presence of sparse rewards. Rather than designing shaped reward functions, ACGD adaptively sets the appropriate task difficulty for the learner by controlling where to sample from the demonstration trajectories and which set of simulation parameters to use. We show that training vision-based control policies in simulation while gradually increasing the difficulty of the task via ACGD improves the policy transfer to the real world. The degree of domain randomization is also gradually increased through the task difficulty. We demonstrate zero-shot transfer for two real-world manipulation tasks: pick-and-stow and block stacking. A video showing the results can be found at
updated: Wed Jul 08 2020 15:44:10 GMT+0000 (UTC)
published: Thu Oct 17 2019 15:33:03 GMT+0000 (UTC)
