シミュレーションのみでトレーニングされたモデルを使用して、実際のロボットの前例のない複雑さの操作問題を解決できることを示します。これは、自動ドメインランダム化(ADR)と呼ばれる新しいアルゴリズムと、機械学習用に構築されたロボットプラットフォームという2つの主要なコンポーネントによって可能になります。 ADRは、ますます困難になっているランダム化された環境に自動的に分布を生成します。 ADRでトレーニングされた制御ポリシーと視覚状態推定器は、大幅に改善されたsim2real転送を示します。制御ポリシーの場合、ADRで生成された環境の分布でトレーニングされたメモリ拡張モデルは、テスト時に緊急のメタ学習の明確な兆候を示します。 ADRとカスタムロボットプラットフォームを組み合わせることで、ルービックキューブをヒューマノイドロボットハンドで解決できます。これには、制御と状態推定の両方の問題が含まれます。結果をまとめたビデオが利用できます:https://openai.com/blog/solving-rubiks-cube/
We demonstrate that models trained only in simulation can be used to solve a manipulation problem of unprecedented complexity on a real robot. This is made possible by two key components: a novel algorithm, which we call automatic domain randomization (ADR) and a robot platform built for machine learning. ADR automatically generates a distribution over randomized environments of ever-increasing difficulty. Control policies and vision state estimators trained with ADR exhibit vastly improved sim2real transfer. For control policies, memory-augmented models trained on an ADR-generated distribution of environments show clear signs of emergent meta-learning at test time. The combination of ADR with our custom robot platform allows us to solve a Rubik's cube with a humanoid robot hand, which involves both control and state estimation problems. Videos summarizing our results are available: https://openai.com/blog/solving-rubiks-cube/