arXiv reaDer
CLIPort:ロボット操作のための経路と場所
CLIPort: What and Where Pathways for Robotic Manipulation
オブジェクトを正確に操作する機能だけでなく、抽象的な概念の観点からオブジェクトについて推論する機能をロボットにどのように吹き込むことができますか?最近の操作作業では、エンドツーエンドのネットワークが正確な空間的推論を必要とする器用なスキルを習得できることが示されていますが、これらの方法では、新しい目標に一般化したり、タスク間で転送可能な概念をすばやく習得したりできないことがよくあります。並行して、大規模なインターネットデータのトレーニングにより、視覚と言語の一般化可能な意味表現の学習に大きな進歩がありましたが、これらの表現は、きめ細かい操作に必要な空間的理解を欠いています。この目的のために、私たちは両方の長所を組み合わせたフレームワークを提案します。それは、視覚ベースの操作のための意味論的および空間的経路を備えた2ストリームアーキテクチャです。具体的には、CLIP [1]の幅広い意味理解(what)とTransporter [2]の空間精度(where)を組み合わせた言語条件付き模倣学習エージェントであるCLIPortを紹介します。私たちのエンドツーエンドのフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボリック状態、構文構造を明示的に表現することなく、見えないオブジェクトのパッキングから布の折り畳みまで、言語で指定されたさまざまな卓上タスクを解決できます。シミュレートされた設定と実際の設定での実験は、私たちのアプローチが数ショットの設定でデータ効率が高く、目に見える意味論的概念と目に見えない意味論的概念に効果的に一般化することを示しています。 10個のシミュレートされたタスクと9個の実際のタスクに対して、シングルタスクポリシーよりも優れているか同等の1つのマルチタスクポリシーも学習します。
How can we imbue robots with the ability to manipulate objects precisely but also to reason about them in terms of abstract concepts? Recent works in manipulation have shown that end-to-end networks can learn dexterous skills that require precise spatial reasoning, but these methods often fail to generalize to new goals or quickly learn transferable concepts across tasks. In parallel, there has been great progress in learning generalizable semantic representations for vision and language by training on large-scale internet data, however these representations lack the spatial understanding necessary for fine-grained manipulation. To this end, we propose a framework that combines the best of both worlds: a two-stream architecture with semantic and spatial pathways for vision-based manipulation. Specifically, we present CLIPort, a language-conditioned imitation-learning agent that combines the broad semantic understanding (what) of CLIP [1] with the spatial precision (where) of Transporter [2]. Our end-to-end framework is capable of solving a variety of language-specified tabletop tasks from packing unseen objects to folding cloths, all without any explicit representations of object poses, instance segmentations, memory, symbolic states, or syntactic structures. Experiments in simulated and real-world settings show that our approach is data efficient in few-shot settings and generalizes effectively to seen and unseen semantic concepts. We even learn one multi-task policy for 10 simulated and 9 real-world tasks that is better or comparable to single-task policies.
updated: Fri Sep 24 2021 17:44:28 GMT+0000 (UTC)
published: Fri Sep 24 2021 17:44:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト