arXiv reaDer
想像値勾配:転送可能な潜在的ダイナミクスモデルによるモデルベースのポリシー最適化
Imagined Value Gradients: Model-Based Policy Optimization with Transferable Latent Dynamics Models
  人間は、環境のダイナミクスの大まかな理解に依存して、多くの複雑なタスクをすばやく学習することの達人です。ほぼ同じ方法で、学習エージェントが新しいタスクにすばやく適応できるようにしたいと考えています。このホワイトペーパーでは、モデルベースの強化学習(RL)がどのように新しいタスクへの移行を促進できるかを探ります。想定される将来の観測、報酬、および想像される軌道に沿った推定値の勾配を追跡することによってポリシーを導出できる値のアクション条件付き予測モデルを学習するアルゴリズムを開発します。視覚と固有受容から直接学習される近似モデルを使用しても、ロボット操作タスクで堅牢なポリシー最適化を実現できる方法を示します。転送学習シナリオでのアプローチの有効性を評価し、以前に学習したモデルを異なる報酬構造と視覚的注意散漫を持つタスクで再利用し、強力なオフポリシーベースラインと比較して学習速度の大幅な改善を示します。結果付きのビデオはhttps://sites.google.com/view/ivg-corl19で見つけることができます
Humans are masters at quickly learning many complex tasks, relying on an approximate understanding of the dynamics of their environments. In much the same way, we would like our learning agents to quickly adapt to new tasks. In this paper, we explore how model-based Reinforcement Learning (RL) can facilitate transfer to new tasks. We develop an algorithm that learns an action-conditional, predictive model of expected future observations, rewards and values from which a policy can be derived by following the gradient of the estimated value along imagined trajectories. We show how robust policy optimization can be achieved in robot manipulation tasks even with approximate models that are learned directly from vision and proprioception. We evaluate the efficacy of our approach in a transfer learning scenario, re-using previously learned models on tasks with different reward structures and visual distractors, and show a significant improvement in learning speed compared to strong off-policy baselines. Videos with results can be found at https://sites.google.com/view/ivg-corl19
updated: Wed Oct 09 2019 17:37:52 GMT+0000 (UTC)
published: Wed Oct 09 2019 17:37:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト