arXiv reaDer
セマンティック抽象化:2Dビジョン言語モデルからのオープンワールド3Dシーンの理解
Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models
オープンワールドの3Dシーンの理解を研究します。これは、エージェントがオープンセットの語彙とドメイン外の視覚入力を使用して3D環境について推論する必要がある一連のタスクです。これは、ロボットが非構造化3Dワールドで動作するための重要なスキルです。この目的に向けて、ゼロショットの堅牢性を維持しながら、2Dビジョン言語モデル(VLM)に新しい3D空間機能を装備するフレームワークであるセマンティック抽象化(SemAbs)を提案します。 CLIPから抽出された関連性マップを使用してこの抽象化を実現し、それらの抽象化に加えて、セマンティックにとらわれない方法で3Dの空間的および幾何学的推論スキルを学習します。 2つのオープンワールド3Dシーン理解タスクでのSemAbsの有用性を示します:1)部分的に観察されたオブジェクトを完了することと2)言語記述から隠されたオブジェクトをローカライズすること。実験によると、SemAbsは、限られた3D合成データのトレーニングから、新しい語彙、材料/照明、クラス、およびドメイン(つまり、実世界のスキャン)に一般化できることが示されています。コードとデータはhttps://semantic-abstraction.cs.columbia.edu/で入手できます。
We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data will be available at https://semantic-abstraction.cs.columbia.edu/
updated: Sat Jul 23 2022 13:10:25 GMT+0000 (UTC)
published: Sat Jul 23 2022 13:10:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト