arXiv reaDer
セマンティック抽象化: 2D 視覚言語モデルからのオープンワールド 3D シーンの理解
Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models
私たちは、オープンワールドの 3D シーンの理解を研究しています。これは、エージェントがオープンセットの語彙とドメイン外の視覚入力を使用して 3D 環境について推論することをエージェントに要求する一連のタスクです。これは、ロボットが構造化されていない 3D の世界で動作するための重要なスキルです。この目的に向けて、セマンティック アブストラクション (SemAb) を提案します。これは、2D ビジョン言語モデル (VLM) に新しい 3D 空間機能を装備し、ゼロ ショットの堅牢性を維持するフレームワークです。 CLIP から抽出された関連性マップを使用してこの抽象化を実現し、これらの抽象化に加えて、セマンティックにとらわれない方法で 3D の空間的および幾何学的な推論スキルを学習します。 2 つのオープンワールドの 3D シーン理解タスクでの SemAb の有用性を示します。実験は、SemAb が、限られた 3D 合成データでのトレーニングから、新しい語彙、マテリアル/照明、クラス、およびドメイン (つまり、実世界のスキャン) に一般化できることを示しています。コードとデータは https://semantic-abstraction.cs.columbia.edu/ で入手できます。
We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data is available at https://semantic-abstraction.cs.columbia.edu/
updated: Tue Dec 06 2022 11:09:39 GMT+0000 (UTC)
published: Sat Jul 23 2022 13:10:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト