私たちは、スキルを効果的に構成して問題を解決し、現実世界のまばらな報酬タスクを解決します。パラメーター化された一連のスキル(場所で力を発揮したり、トップグリップを行うなど)が与えられた場合、目標はこれらのスキルを呼び出してそのようなタスクを効率的に解決するポリシーを学習することです。多くのタスクについて、学習プロセスは、状態に依存しないタスクスキーマ(実行する一連のスキル)と、状態に依存する方法でスキルのパラメーター化を選択するポリシーの学習に分解できるという洞察です。このようなタスクの場合、スキーマの状態独立性を明示的にモデリングすると、モデルのない強化学習アルゴリズムのサンプル効率が大幅に向上することがわかります。さらに、これらのスキーマを転送して、スキルが呼び出されるパラメーター化を再学習するだけで、関連タスクを解決できます。そうすることで、実世界のロボットシステムでのスパース報酬タスクを非常に効率的に解決する学習が可能になることがわかります。シミュレーションと実際のハードウェアの両方で、ロボットの両手操作タスクのスイートで実験的にアプローチを検証します。 http://tinyurl.com/chitnis-schemaのビデオを参照してください。
We address the problem of effectively composing skills to solve sparse-reward tasks in the real world. Given a set of parameterized skills (such as exerting a force or doing a top grasp at a location), our goal is to learn policies that invoke these skills to efficiently solve such tasks. Our insight is that for many tasks, the learning process can be decomposed into learning a state-independent task schema (a sequence of skills to execute) and a policy to choose the parameterizations of the skills in a state-dependent manner. For such tasks, we show that explicitly modeling the schema's state-independence can yield significant improvements in sample efficiency for model-free reinforcement learning algorithms. Furthermore, these schemas can be transferred to solve related tasks, by simply re-learning the parameterizations with which the skills are invoked. We find that doing so enables learning to solve sparse-reward tasks on real-world robotic systems very efficiently. We validate our approach experimentally over a suite of robotic bimanual manipulation tasks, both in simulation and on real hardware. See videos at http://tinyurl.com/chitnis-schema.