オープンドメインでのロボット操作における主な課題は、ロボットのための多様で汎用性のあるスキルをどのように獲得するかです。ワンショット模倣学習に関する最近の研究では、訓練されたポリシーをデモンストレーションに基づいて新しいタスクに移行することが期待できることが示されています。この機能は、ロボットが新しいスキルを習得し、タスクと動作の計画を改善できるようにする上で魅力的です。ただし、トレーニング データセットの制限により、コミュニティの現在の焦点は、視覚的なガイダンスのみに依存する、押すタスクやピックプレイス タスクなどの単純なケースに主に焦点を当てています。実際には、複雑なスキルが数多くあり、その中には解決するために視覚と触覚の両方を必要とするものもあります。この論文は、エージェントがマルチモーダル知覚を使用して何百もの現実世界のスキルを一般化できる可能性を解き放つことを目的としています。これを達成するために、私たちは、さまざまなスキル、コンテキスト、ロボット、カメラの視点にわたる 110,000 を超える接触の多いロボット操作シーケンスで構成されるデータセットを収集しました。これらはすべて現実世界で収集されました。データセット内の各シーケンスには、視覚、力、音声、アクションの情報と、対応する人間によるデモンストレーション ビデオが含まれています。私たちはすべてのセンサーを校正し、高品質のデータセットを確保するために多大な労力を費やしてきました。データセットは rh20t.github.io で公開されています。
A key challenge in robotic manipulation in open domains is how to acquire diverse and generalizable skills for robots. Recent research in one-shot imitation learning has shown promise in transferring trained policies to new tasks based on demonstrations. This feature is attractive for enabling robots to acquire new skills and improving task and motion planning. However, due to limitations in the training dataset, the current focus of the community has mainly been on simple cases, such as push or pick-place tasks, relying solely on visual guidance. In reality, there are many complex skills, some of which may even require both visual and tactile perception to solve. This paper aims to unlock the potential for an agent to generalize to hundreds of real-world skills with multi-modal perception. To achieve this, we have collected a dataset comprising over 110,000 contact-rich robot manipulation sequences across diverse skills, contexts, robots, and camera viewpoints, all collected in the real world. Each sequence in the dataset includes visual, force, audio, and action information, along with a corresponding human demonstration video. We have invested significant efforts in calibrating all the sensors and ensuring a high-quality dataset. The dataset is made publicly available at rh20t.github.io