ロボット工学における長年の課題は、構造化されていない現実世界の環境における視覚観察に基づいて、さまざまな操作タスクを実行できるエージェントを開発することです。この目標を達成するには、ロボットはシーンの 3D 構造とセマンティクスを包括的に理解する必要があります。この研究では、一般化可能なニューラル機能フィールドを備えたマルチタスク ロボット操作のための視覚的動作クローン エージェントである GNFactor を紹介します。 GNFactor は、共有されたディープ 3D ボクセル表現を活用して、再構成モジュールとして一般化可能ニューラル フィールド (GNF) と意思決定モジュールとしてパーシーバー トランスフォーマーを共同で最適化します。 3D にセマンティクスを組み込むために、再構成モジュールは視覚言語基盤モデル (安定拡散など) を利用して、豊富なセマンティクス情報を深い 3D ボクセルに抽出します。 3 つの実際のロボット タスクで GNFactor を評価し、限られた数のデモンストレーションで 10 の RLBench タスクで詳細なアブレーションを実行します。私たちは、目に見えるタスクと目に見えないタスクにおいて、現在の最先端の手法と比べて GNFactor が大幅に向上していることを観察し、GNFactor の強力な一般化能力を実証しています。私たちのプロジェクトのウェブサイトは https://yanjieze.com/GNFactor/ です。
It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present GNFactor, a visual behavior cloning agent for multi-task robotic manipulation with Generalizable Neural feature Fields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model (e.g., Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .