人間は私たちの周りの3D環境を直感的に強く理解しています。私たちの脳の物理学のメンタルモデルは、さまざまな材料のオブジェクトに適用され、現在のロボットの範囲をはるかに超えた幅広い操作タスクを実行できるようにします。この作品では、純粋に2Dの視覚的観察から、動的な3Dシーンのモデルを学習したいと考えています。私たちのモデルは、ニューラルラディアンスフィールド(NeRF)と時間対照学習を、視点不変の3D認識シーン表現を学習する自動エンコードフレームワークと組み合わせています。学習した表現空間上に構築されたダイナミクスモデルにより、ロボットの動作とは異なる視点でターゲットを指定する、剛体と流体の両方を含む困難な操作タスクの視覚運動制御が可能になることを示します。自動デコードフレームワークと組み合わせると、トレーニングディストリビューションの外部にあるカメラの視点からの目標指定をサポートすることもできます。さらに、将来の予測と新しいビューの合成を実行することにより、学習した3Dダイナミクスモデルの豊富さを示します。最後に、さまざまなシステム設計と学習した表現の定性分析に関する詳細なアブレーション研究を提供します。
Humans have a strong intuitive understanding of the 3D environment around us. The mental model of the physics in our brain applies to objects of different materials and enables us to perform a wide range of manipulation tasks that are far beyond the reach of current robots. In this work, we desire to learn models for dynamic 3D scenes purely from 2D visual observations. Our model combines Neural Radiance Fields (NeRF) and time contrastive learning with an autoencoding framework, which learns viewpoint-invariant 3D-aware scene representations. We show that a dynamics model, constructed over the learned representation space, enables visuomotor control for challenging manipulation tasks involving both rigid bodies and fluids, where the target is specified in a viewpoint different from what the robot operates on. When coupled with an auto-decoding framework, it can even support goal specification from camera viewpoints that are outside the training distribution. We further demonstrate the richness of the learned 3D dynamics model by performing future prediction and novel view synthesis. Finally, we provide detailed ablation studies regarding different system designs and qualitative analysis of the learned representations.