私たちは、野生の人間を見ることによって学習の問題に取り組みます。模倣および強化学習の従来のアプローチは、現実の世界での学習に有望ですが、サンプルが非効率的であるか、ラボの設定に制限されています。一方、受動的で構造化されていない人間のデータの処理には多くの成功がありました。第三者の視点からの学習を中心に、効率的なワンショットロボット学習アルゴリズムを介してこの問題に取り組むことを提案します。私たちは私たちの方法をWHIRLと呼びます:野生の人間を模倣したロボット学習。 WHIRLは、エージェントのポリシーを初期化するために使用して、人間のデモンストレーターの意図よりも優先順位を抽出します。インタラクションの使用を改善する効率的な実世界のポリシー学習スキームを紹介します。私たちの主な貢献は、単純なサンプリングベースのポリシー最適化アプローチ、人間とロボットのビデオを整列させるための新しい目的関数、およびサンプル効率を高めるための探索方法です。実世界での20の異なる操作タスクを含む、実際の設定でのワンショットの一般化と成功を示します。 https://human2robot.github.ioでビデオとトーク
We approach the problem of learning by watching humans in the wild. While traditional approaches in Imitation and Reinforcement Learning are promising for learning in the real world, they are either sample inefficient or are constrained to lab settings. Meanwhile, there has been a lot of success in processing passive, unstructured human data. We propose tackling this problem via an efficient one-shot robot learning algorithm, centered around learning from a third-person perspective. We call our method WHIRL: In-the-Wild Human Imitating Robot Learning. WHIRL extracts a prior over the intent of the human demonstrator, using it to initialize our agent's policy. We introduce an efficient real-world policy learning scheme that improves using interactions. Our key contributions are a simple sampling-based policy optimization approach, a novel objective function for aligning human and robot videos as well as an exploration method to boost sample efficiency. We show one-shot generalization and success in real-world settings, including 20 different manipulation tasks in the wild. Videos and talk at https://human2robot.github.io