環境内で人間と共存する汎用ロボットは、日常のさまざまなタスクで役立つように、人間の言語を知覚や行動に関連付けることを学ぶ必要があります。さらに、彼らは、制約のない言語の指示に従うことによって、長期的なタスクを構成することを可能にする汎用スキルの多様なレパートリーを習得する必要があります。このホワイトペーパーでは、長期的な言語条件付きタスクを学習するためのオープンソースのシミュレートされたベンチマークであるCALVIN(言語とビジョンからのアクションの作成)を紹介します。私たちの目的は、搭載されたセンサーから、人間の言語でのみ指定された、長い期間にわたって多くのロボット操作タスクを解決できるエージェントの開発を可能にすることです。 CALVINタスクは、シーケンスの長さ、アクションスペース、および言語の点で、既存の視覚と言語のタスクデータセットよりも複雑であり、センサースイートの柔軟な仕様をサポートします。私たちは、ゼロショットで新しい言語の指示と新しい環境とオブジェクトにエージェントを評価します。マルチコンテキスト模倣学習に基づくベースラインモデルは、CALVINでのパフォーマンスが低いことを示しています。これは、このベンチマークを使用して、人間の言語を世界モデルに関連付けることを学習する革新的なエージェントを開発する余地があることを示しています。
General-purpose robots coexisting with humans in their environment must learn to relate human language to their perceptions and actions to be useful in a range of daily tasks. Moreover, they need to acquire a diverse repertoire of general-purpose skills that allow composing long-horizon tasks by following unconstrained language instructions. In this paper, we present CALVIN (Composing Actions from Language and Vision), an open-source simulated benchmark to learn long-horizon language-conditioned tasks. Our aim is to make it possible to develop agents that can solve many robotic manipulation tasks over a long horizon, from onboard sensors, and specified only via human language. CALVIN tasks are more complex in terms of sequence length, action space, and language than existing vision-and-language task datasets and supports flexible specification of sensor suites. We evaluate the agents in zero-shot to novel language instructions and to novel environments and objects. We show that a baseline model based on multi-context imitation learning performs poorly on CALVIN, suggesting that there is significant room for developing innovative agents that learn to relate human language to their world models with this benchmark.