世界は、視覚だけでは使い方を判断するのが難しい多関節オブジェクトで満たされています。たとえば、ドアが内側または外側に開く場合があります。人間は戦略的な試行錯誤でこれらのオブジェクトを処理します。最初にドアを押し、それが機能しない場合は引きます。 「仮説を立て、シミュレートし、行動し、更新し、繰り返す」(H-SAUR)を提案することで、自律エージェントでこれらの機能を有効にします。これは、オブジェクトが与えられた入力観測をどのように表現するかについて仮説の分布を同時に生成し、仮説に対する確実性を捉える確率的生成フレームワークです。時間の経過とともに、探索と目標条件付き操作のためのもっともらしい行動を推測します。 PartNet-Mobility データセットで、いくつかの探索アクションの後にオブジェクトを操作する際に、モデルを既存の作業と比較します。さらに、解決するために複数の手順を必要とするロックされたボックスを含む、新しい PuzzleBoxes ベンチマークを提案します。ゼロのトレーニング データを使用しているにもかかわらず、提案されたモデルが現在の最先端の多関節オブジェクト操作フレームワークよりも大幅に優れていることを示します。学習ベースのビジョンモデルから学習した事前確率を統合することにより、H-SAUR のテスト時間効率をさらに改善します。
The world is filled with articulated objects that are difficult to determine how to use from vision alone, e.g., a door might open inwards or outwards. Humans handle these objects with strategic trial-and-error: first pushing a door then pulling if that doesn't work. We enable these capabilities in autonomous agents by proposing "Hypothesize, Simulate, Act, Update, and Repeat" (H-SAUR), a probabilistic generative framework that simultaneously generates a distribution of hypotheses about how objects articulate given input observations, captures certainty over hypotheses over time, and infer plausible actions for exploration and goal-conditioned manipulation. We compare our model with existing work in manipulating objects after a handful of exploration actions, on the PartNet-Mobility dataset. We further propose a novel PuzzleBoxes benchmark that contains locked boxes that require multiple steps to solve. We show that the proposed model significantly outperforms the current state-of-the-art articulated object manipulation framework, despite using zero training data. We further improve the test-time efficiency of H-SAUR by integrating a learned prior from learning-based vision models.