私たちは、オープンワールドの 3D シーンの理解を研究しています。これは、エージェントがオープンセットの語彙とドメイン外の視覚入力を使用して 3D 環境について推論することをエージェントに要求する一連のタスクです。これは、ロボットが構造化されていない 3D の世界で動作するための重要なスキルです。この目的に向けて、セマンティック アブストラクション (SemAb) を提案します。これは、2D ビジョン言語モデル (VLM) に新しい 3D 空間機能を装備し、ゼロ ショットの堅牢性を維持するフレームワークです。 CLIP から抽出された関連性マップを使用してこの抽象化を実現し、これらの抽象化に加えて、セマンティックにとらわれない方法で 3D の空間的および幾何学的な推論スキルを学習します。 2 つのオープンワールドの 3D シーン理解タスクでの SemAb の有用性を示します。実験は、SemAb が、限られた 3D 合成データでのトレーニングから、新しい語彙、マテリアル/照明、クラス、およびドメイン (つまり、実世界のスキャン) に一般化できることを示しています。コードとデータは https://semantic-abstraction.cs.columbia.edu/ で入手できます。
We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data is available at https://semantic-abstraction.cs.columbia.edu/