ロボット学習は、現実世界の複雑さと多様性を手なずけるための有望なツールとして浮上しています。深層ネットワークなどの大容量モデルに基づく方法は、広範なオープンワールド環境に効果的な一般化を提供する見込みがあります。ただし、これらの同じ方法では通常、効果的に一般化するために大量の多様なトレーニングデータが必要です。対照的に、ほとんどのロボット学習実験は、小規模、単一ドメイン、および単一ロボットです。これは、ロボット学習に頻繁な緊張をもたらします。個々の実験ごとに非現実的に大量のデータを収集することなく、一般化可能なロボットコントローラを学習するにはどうすればよいでしょうか?本論文では、7つの異なるロボットプラットフォームからの1500万のビデオフレームの初期プールを提供する、ロボットエクスペリエンスを共有するためのオープンデータベースであるRoboNetを提案し、それを使用して視覚ベースのロボット操作の一般化可能なモデルを学習する方法を研究します。データセットを2つの異なる学習アルゴリズムと組み合わせます:視覚予測、前方ビデオ予測モデル、および教師あり逆モデルを使用します。私たちの実験では、学習したアルゴリズムが新しいオブジェクト、新しいタスク、新しいシーン、新しいカメラの視点、新しいグリッパー、さらにはまったく新しいロボットにまたがって機能するかどうかをテストします。最後の実験では、RoboNetでの事前トレーニングと、保留されているFrankaまたはKukaロボットからのデータの微調整により、4x-20xのデータを使用するロボット固有のトレーニングアプローチのパフォーマンスを超えることができることがわかりました。ビデオとデータについては、プロジェクトのWebページhttps://www.robonet.wiki/をご覧ください。
Robot learning has emerged as a promising tool for taming the complexity and diversity of the real world. Methods based on high-capacity models, such as deep networks, hold the promise of providing effective generalization to a wide range of open-world environments. However, these same methods typically require large amounts of diverse training data to generalize effectively. In contrast, most robotic learning experiments are small-scale, single-domain, and single-robot. This leads to a frequent tension in robotic learning: how can we learn generalizable robotic controllers without having to collect impractically large amounts of data for each separate experiment? In this paper, we propose RoboNet, an open database for sharing robotic experience, which provides an initial pool of 15 million video frames, from 7 different robot platforms, and study how it can be used to learn generalizable models for vision-based robotic manipulation. We combine the dataset with two different learning algorithms: visual foresight, which uses forward video prediction models, and supervised inverse models. Our experiments test the learned algorithms' ability to work across new objects, new tasks, new scenes, new camera viewpoints, new grippers, or even entirely new robots. In our final experiment, we find that by pre-training on RoboNet and fine-tuning on data from a held-out Franka or Kuka robot, we can exceed the performance of a robot-specific training approach that uses 4x-20x more data. For videos and data, see the project webpage: https://www.robonet.wiki/