この論文では、モデルフリーの視覚強化学習(RL)を通じて、変形可能なオブジェクトの操作の問題に取り組みます。 RLのサンプルの非効率性を回避するために、学習を加速する2つの重要なアイデアを提案します。まず、ピッキングと変形可能オブジェクトへの配置との間の条件付き関係をエンコードする、反復的なピックプレースアクション空間を提案します。明示的な構造エンコードにより、複雑なオブジェクトダイナミクスの下での高速な学習が可能になります。次に、ピックとプレースの両方の場所を共同で学習する代わりに、ランダムピックポイントを条件とした配置ポリシーのみを明示的に学習します。次に、配置中の最大値(MVP)を持つピックポイントを選択することで、ピッキングポリシーを取得します。これにより、テスト中に情報に基づいたピッキングポリシーが提供され、トレーニング中にランダムなピックポイントのみが使用されます。実験的に、この学習フレームワークは、視覚的なRGB観測を備えた変形可能なオブジェクト操作タスクのスイート上の独立したアクション空間と比較して、桁違いに高速な学習を実現します。最後に、ドメインランダム化を使用して、挑戦的な布とロープのカバレッジタスクのためにポリシーを実際のPR2ロボットに転送し、平均カバレッジの標準RLテクニックを大幅に改善します。
In this paper we tackle the problem of deformable object manipulation through model-free visual reinforcement learning (RL). In order to circumvent the sample inefficiency of RL, we propose two key ideas that accelerate learning. First, we propose an iterative pick-place action space that encodes the conditional relationship between picking and placing on deformable objects. The explicit structural encoding enables faster learning under complex object dynamics. Second, instead of jointly learning both the pick and the place locations, we only explicitly learn the placing policy conditioned on random pick points. Then, by selecting the pick point that has Maximal Value under Placing (MVP), we obtain our picking policy. This provides us with an informed picking policy during testing, while using only random pick points during training. Experimentally, this learning framework obtains an order of magnitude faster learning compared to independent action-spaces on our suite of deformable object manipulation tasks with visual RGB observations. Finally, using domain randomization, we transfer our policies to a real PR2 robot for challenging cloth and rope coverage tasks, and demonstrate significant improvements over standard RL techniques on average coverage.