Learning Visual Affordances with Target-Orientated Deep Q-Network to Grasp Objects by Harnessing Environmental Fixtures
この論文では、挑戦的な物体把握タスクを紹介し、自己教師あり学習アプローチを提案します。タスクの目標は、単一の平行グリッパーでは実行できないオブジェクトを把握することですが、環境フィクスチャ(壁、家具、重いオブジェクトなど)を利用する場合にのみ実行できます。このSlide-to-Wall把握タスクは、ターゲットオブジェクトの部分的な観察を除いて事前の知識がないことを前提としています。したがって、ロボットは、ターゲットオブジェクト、環境器具、およびその他の邪魔なオブジェクトを含む可能性のあるシーンの観察を前提として、効果的なポリシーを学習する必要があります。この問題を視覚的アフォーダンス学習として定式化し、ターゲット指向のディープQネットワーク(TO-DQN)を提案して、視覚的アフォーダンスマップ(つまりQマップ)を効率的に学習し、ロボットの動作をガイドします。トレーニングにはロボットの探索とフィクスチャとの衝突が必要なため、TO-DQNは最初にシミュレートされたロボットマニピュレータを使用して安全にトレーニングされ、次に実際のロボットに適用されます。 TO-DQNは、シミュレーションでさまざまな環境設定でタスクを解決することを学習でき、トレーニングの効率と堅牢性の点でDeep Q-Network(DQN)の標準およびバリアントよりも優れていることを経験的に示しています。シミュレーションと実際のロボット実験の両方でのテストパフォーマンスは、TO-DQNによってトレーニングされたポリシーが人間と同等のパフォーマンスを達成することを示しています。
This paper introduces a challenging object grasping task and proposes a self-supervised learning approach. The goal of the task is to grasp an object which is not feasible with a single parallel gripper, but only with harnessing environment fixtures (e.g., walls, furniture, heavy objects). This Slide-to-Wall grasping task assumes no prior knowledge except the partial observation of a target object. Hence the robot should learn an effective policy given a scene observation that may include the target object, environmental fixtures, and any other disturbing objects. We formulate the problem as visual affordances learning for which Target-Oriented Deep Q-Network (TO-DQN) is proposed to efficiently learn visual affordance maps (i.e., Q-maps) to guide robot actions. Since the training necessitates robot's exploration and collision with the fixtures, TO-DQN is first trained safely with a simulated robot manipulator and then applied to a real robot. We empirically show that TO-DQN can learn to solve the task in different environment settings in simulation and outperforms a standard and a variant of Deep Q-Network (DQN) in terms of training efficiency and robustness. The testing performance in both simulation and real-robot experiments shows that the policy trained by TO-DQN achieves comparable performance to humans.
updated: Sat Apr 03 2021 01:32:21 GMT+0000 (UTC)
published: Wed Oct 09 2019 04:08:03 GMT+0000 (UTC)
