食事の準備や家具の組み立てなどの操作タスクは、ロボット工学と視覚にとって非常に困難なままです。従来のタスクおよびモーションプランニング(TAMP)メソッドは、複雑なタスクを解決できますが、完全な状態の観察可能性を必要とし、動的なシーンの変更には適応しません。最近の学習方法は、視覚的な入力を直接操作できますが、通常、多くのデモンストレーションやタスク固有の報酬エンジニアリングが必要です。この作業では、以前の制限を克服し、原始的なスキルを組み合わせることを学ぶタスク計画への強化学習(RL)アプローチを提案します。まず、以前の学習方法と比較して、私たちのアプローチは、トレーニング中に中間報酬や完全なタスクのデモンストレーションを必要としません。 2番目に、一時的なオクルージョンと動的なシーンの変更を伴う困難な環境で、ビジョンベースのタスクプランニングの多様性を示します。第三に、最近のCNNアーキテクチャとデータ拡張を調査することにより、いくつかの合成デモから基本的なスキルの効率的なトレーニングを提案します。特に、すべてのポリシーはシミュレートされた環境での視覚的な入力で学習されますが、実際のUR5ロボットアームの操作タスクにそのようなポリシーを適用すると、転送が成功し、成功率が高くなります。
Manipulation tasks such as preparing a meal or assembling furniture remain highly challenging for robotics and vision. Traditional task and motion planning (TAMP) methods can solve complex tasks but require full state observability and are not adapted to dynamic scene changes. Recent learning methods can operate directly on visual inputs but typically require many demonstrations and/or task-specific reward engineering. In this work we aim to overcome previous limitations and propose a reinforcement learning (RL) approach to task planning that learns to combine primitive skills. First, compared to previous learning methods, our approach requires neither intermediate rewards nor complete task demonstrations during training. Second, we demonstrate the versatility of our vision-based task planning in challenging settings with temporary occlusions and dynamic scene changes. Third, we propose an efficient training of basic skills from few synthetic demonstrations by exploring recent CNN architectures and data augmentation. Notably, while all of our policies are learned on visual inputs in simulated environments, we demonstrate the successful transfer and high success rates when applying such policies to manipulation tasks on a real UR5 robotic arm.