深層強化学習(RL)は、画像ピクセルをアクション出力にマッピングする関数を学習することにより、エンドツーエンドのアクション選択ポリシーのトレーニングを可能にしました。ただし、物理的なハードウェアで作業する場合の大規模なデータ収集の課題により、視覚運動ロボットポリシートレーニングへの適用は制限されています。適切な視覚運動ポリシーは、訓練されたタスク設定だけでなく、タスクに関係のないオブジェクトに囲まれたさまざまな視点の新しいオブジェクトを含む、すべての種類のタスクに対してもうまく機能するはずです。ただし、ロボットのセットアップがRLフレームワークでインタラクティブなサンプルを十分に収集して、タスクの新しい側面に一般化することは実用的ではありません。この作業では、ドメイン転送に敵対的トレーニングを使用することで、RLフレームワークに基づいて視覚運動ポリシーをトレーニングし、取得したポリシーを他の新しいタスクドメインに転送できることを示します。ディープRL機能を活用して、複雑でないタスク設定の複雑な視覚運動スキルを学習し、転送学習を活用して、ターゲットドメイン内のタスクの静止画像のみを提供する新しいタスクドメインに一般化することを提案します。 2つの実際のロボットタスク(ピッキングと注ぐ)でメソッドを評価し、それを以前の多くの作業と比較して、その優位性を実証します。
Deep reinforcement learning (RL) has enabled training action-selection policies, end-to-end, by learning a function which maps image pixels to action outputs. However, it's application to visuomotor robotic policy training has been limited because of the challenge of large-scale data collection when working with physical hardware. A suitable visuomotor policy should perform well not just for the task-setup it has been trained for, but also for all varieties of the task, including novel objects at different viewpoints surrounded by task-irrelevant objects. However, it is impractical for a robotic setup to sufficiently collect interactive samples in a RL framework to generalize well to novel aspects of a task. In this work, we demonstrate that by using adversarial training for domain transfer, it is possible to train visuomotor policies based on RL frameworks, and then transfer the acquired policy to other novel task domains. We propose to leverage the deep RL capabilities to learn complex visuomotor skills for uncomplicated task setups, and then exploit transfer learning to generalize to new task domains provided only still images of the task in the target domain. We evaluate our method on two real robotic tasks, picking and pouring, and compare it to a number of prior works, demonstrating its superiority.