Learning One-Shot Imitation from Humans without Humans
 人間は、他の個人によって実行されたタスクを一度見て、新しいタスクを実行することを自然に学習し、さまざまな構成でそれを再現できます。第三者から人間を模倣するこの能力をロボットに付与することは、新しいタスクを教える非常に即時かつ自然な方法です。最近になってようやく、メタ学習を通じて、人間からのワンショット模倣学習の試みが成功しました。ただし、これらのアプローチでは、ロボットを訓練するために現実世界のデータを収集するために多くの人的資源が必要です。しかし、トレーニング中に実世界の人間のデモンストレーションの必要性を取り除く方法はありますか? Task-Embedded Control Networksを使用すると、制御ポリシーを条件付けて一発の模倣学習を実現できる人間のデモンストレーションを埋め込むことで、制御ポリシーを推測できることがわかります。重要なのは、トレーニング中に実際の人間の腕を使用してデモンストレーションを提供するのではなく、これまで見たことのないアプリケーションでのドメインランダム化を活用することです。シミュレーションと実世界の両方でタスクをプッシュして配置するアプローチを評価すると、実世界のデータでトレーニングされたシステムと比較して、シミュレーションデータのみを使用することで同様の結果を達成できることを示しています。
Humans can naturally learn to execute a new task by seeing it performed by other individuals once, and then reproduce it in a variety of configurations. Endowing robots with this ability of imitating humans from third person is a very immediate and natural way of teaching new tasks. Only recently, through meta-learning, there have been successful attempts to one-shot imitation learning from humans; however, these approaches require a lot of human resources to collect the data in the real world to train the robot. But is there a way to remove the need for real world human demonstrations during training? We show that with Task-Embedded Control Networks, we can infer control polices by embedding human demonstrations that can condition a control policy and achieve one-shot imitation learning. Importantly, we do not use a real human arm to supply demonstrations during training, but instead leverage domain randomisation in an application that has not been seen before: sim-to-real transfer on humans. Upon evaluating our approach on pushing and placing tasks in both simulation and in the real world, we show that in comparison to a system that was trained on real-world data we are able to achieve similar results by utilising only simulation data.
