Semantic and Geometric Modeling with Neural Message Passing in 3D Scene Graphs for Hierarchical Mechanical Search
家やオフィスなどの屋内の組織化された環境でオブジェクトを検索することは、私たちの日常活動の一部です。ターゲットオブジェクトを探すとき、オブジェクトが入る可能性のある部屋とコンテナについて共同で推論します。同じタイプのコンテナは、それが置かれている部屋に応じてターゲットを持つ確率が異なります。また、幾何学的情報とセマンティック情報を組み合わせて、どのコンテナを検索するのが最適か、またはターゲットの場合は他のどのオブジェクトを移動するのが最適かを推測します。オブジェクトは非表示になっています。この問題の階層的、意味的、および幾何学的側面をキャプチャするために、3Dシーングラフ表現を使用することを提案します。検索プロセスでこの表現を活用するために、Hierarchical Mechanical Search(HMS)を導入します。これは、自然言語の説明で指定されたターゲットオブジェクトを見つけるためのエージェントのアクションをガイドする方法です。 HMSは、視覚的、幾何学的、および言語学的情報を含むベクトルのニューラルメッセージパッシングを使用して、HMSが意味論的および幾何学的な手がかりを組み合わせながら、グラフのレイヤー全体を推論できるようにする新しいニューラルネットワークアーキテクチャに基づいています。 HMSは、ストレージの場所に意味的に関連するオブジェクトが密に配置された500個の3Dシーングラフの新しいデータセットで評価され、オブジェクトの検索においていくつかのベースラインよりも大幅に優れており、アクション数の中央値に関してOracleポリシーに近いことが示されています。必須。追加の定性的結果はで見つけることができます。
Searching for objects in indoor organized environments such as homes or offices is part of our everyday activities. When looking for a target object, we jointly reason about the rooms and containers the object is likely to be in; the same type of container will have a different probability of having the target depending on the room it is in. We also combine geometric and semantic information to infer what container is best to search, or what other objects are best to move, if the target object is hidden from view. We propose to use a 3D scene graph representation to capture the hierarchical, semantic, and geometric aspects of this problem. To exploit this representation in a search process, we introduce Hierarchical Mechanical Search (HMS), a method that guides an agent's actions towards finding a target object specified with a natural language description. HMS is based on a novel neural network architecture that uses neural message passing of vectors with visual, geometric, and linguistic information to allow HMS to reason across layers of the graph while combining semantic and geometric cues. HMS is evaluated on a novel dataset of 500 3D scene graphs with dense placements of semantically related objects in storage locations, and is shown to be significantly better than several baselines at finding objects and close to the oracle policy in terms of the median number of actions required. Additional qualitative results can be found at
updated: Sun May 23 2021 20:08:59 GMT+0000 (UTC)
published: Mon Dec 07 2020 21:04:34 GMT+0000 (UTC)
