私たちは、インターネット規模のデータで訓練された視覚言語モデルをエンドツーエンドのロボット制御に直接組み込んで一般化を促進し、緊急の意味論的推論を可能にする方法を研究しています。私たちの目標は、単一のエンドツーエンドのトレーニング済みモデルで、ロボットの観察をアクションにマッピングする方法を学習し、Web からの言語および視覚言語データに関する大規模な事前トレーニングのメリットを享受できるようにすることです。この目的を達成するために、ロボットの軌跡データと視覚的な質問応答などのインターネット規模の視覚言語タスクの両方で最先端の視覚言語モデルを共同微調整することを提案します。他のアプローチとは対照的に、私たちはこの目標を達成するためのシンプルで一般的なレシピを提案します。自然言語応答とロボット動作の両方を同じ形式に適合させるために、動作をテキスト トークンとして表現し、それらをトレーニング セットに直接組み込みます。自然言語トークンと同じ方法でモデルを作成します。このようなモデルのカテゴリーをビジョン・言語・アクション・モデル (VLA) と呼び、RT-2 と呼ぶそのようなモデルの例をインスタンス化します。私たちの広範な評価 (6,000 件の評価トライアル) は、私たちのアプローチがパフォーマンスの高いロボット ポリシーにつながり、RT-2 がインターネット規模のトレーニングからさまざまな新しい機能を取得できることを示しています。これには、新しいオブジェクトへの一般化の大幅な改善、ロボット トレーニング データに存在しないコマンドを解釈する機能 (特定の番号やアイコン上にオブジェクトを配置するなど)、およびユーザー コマンドに応答して基本的な推論を実行する機能 (次のような機能) が含まれます。最小または最大のオブジェクト、または別のオブジェクトに最も近いオブジェクトを選択します)。さらに、思考連鎖推論を組み込むことで、RT-2 が多段階の意味論的推論を実行できることを示します。たとえば、即席のハンマーとして使用するためにどの物体 (石) を拾うべきか、またはどの種類の飲み物が最適かを判断するなどです。疲れている人(栄養ドリンク)。
We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both learn to map robot observations to actions and enjoy the benefits of large-scale pretraining on language and vision-language data from the web. To this end, we propose to co-fine-tune state-of-the-art vision-language models on both robotic trajectory data and Internet-scale vision-language tasks, such as visual question answering. In contrast to other approaches, we propose a simple, general recipe to achieve this goal: in order to fit both natural language responses and robotic actions into the same format, we express the actions as text tokens and incorporate them directly into the training set of the model in the same way as natural language tokens. We refer to such category of models as vision-language-action models (VLA) and instantiate an example of such a model, which we call RT-2. Our extensive evaluation (6k evaluation trials) shows that our approach leads to performant robotic policies and enables RT-2 to obtain a range of emergent capabilities from Internet-scale training. This includes significantly improved generalization to novel objects, the ability to interpret commands not present in the robot training data (such as placing an object onto a particular number or icon), and the ability to perform rudimentary reasoning in response to user commands (such as picking up the smallest or largest object, or the one closest to another object). We further show that incorporating chain of thought reasoning allows RT-2 to perform multi-stage semantic reasoning, for example figuring out which object to pick up for use as an improvised hammer (a rock), or which type of drink is best suited for someone who is tired (an energy drink).