Learning to Scaffold the Development of Robotic Manipulation Skills
 接触空間が豊富なロボット操作スキルを習得することは、状態空間とアクション空間の高次元性と、ノイズの多いセンサーや不正確なモーター制御からの不確実性のため、困難な問題です。これらの要因と闘い、より堅牢な操作を実現するために、人間は環境内の接触の制約を積極的に活用します。同様の戦略を採用することにより、ロボットはより堅牢な操作を実現することもできます。このホワイトペーパーでは、ロボットが自律的に環境を変更できるようにして、操作スキルの学習を容易にする方法を発見します。具体的には、環境内に自由に配置できる固定具をロボットに提供します。これらのフィクスチャは、ロボットアクションの結果を制限する厳しい制約を提供します。それにより、知覚と運動制御、足場操作のスキル学習から不確実性を集めます。 2つの学習ループで構成される学習システムを提案します。外側のループでは、ロボットがワークスペースにフィクスチャを配置します。内側のループでは、ロボットは操作スキルを学び、一定回数のエピソードの後、外側のループに報酬を返します。これにより、ロボットは、内側のループが迅速に高い報酬を達成するように固定具を配置するように動機付けられます。シミュレーションと実世界の両方で、ペグ挿入、レンチ操作、浅い挿入の3つのタスクでフレームワークを示します。足場のこの方法により、操作スキルの学習が劇的に高速化されることを示します。
Learning contact-rich, robotic manipulation skills is a challenging problem due to the high-dimensionality of the state and action space as well as uncertainty from noisy sensors and inaccurate motor control. To combat these factors and achieve more robust manipulation, humans actively exploit contact constraints in the environment. By adopting a similar strategy, robots can also achieve more robust manipulation. In this paper, we enable a robot to autonomously modify its environment and thereby discover how to ease manipulation skill learning. Specifically, we provide the robot with fixtures that it can freely place within the environment. These fixtures provide hard constraints that limit the outcome of robot actions. Thereby, they funnel uncertainty from perception and motor control and scaffold manipulation skill learning. We propose a learning system that consists of two learning loops. In the outer loop, the robot positions the fixture in the workspace. In the inner loop, the robot learns a manipulation skill and after a fixed number of episodes, returns the reward to the outer loop. Thereby, the robot is incentivised to place the fixture such that the inner loop quickly achieves a high reward. We demonstrate our framework both in simulation and in the real world on three tasks: peg insertion, wrench manipulation and shallow-depth insertion. We show that manipulation skill learning is dramatically sped up through this way of scaffolding.
updated: Mon Oct 05 2020 05:11:36 GMT+0000 (UTC)
published: Sun Nov 03 2019 21:15:46 GMT+0000 (UTC)
