Structure from Action (SfA) を導入します。これは、一連の推論された相互作用を介して、目に見えない多関節オブジェクトの 3D パーツ ジオメトリとジョイント パラメータを発見するためのフレームワークです。私たちの重要な洞察は、特にトレーニング中に見られないカテゴリについて、3D 関節型 CAD モデルを構築するために、3D 相互作用と知覚を組み合わせて考慮する必要があるということです。有益なインタラクションを選択することで、SfA は部品を発見し、閉じた引き出しの内側などの閉塞面を明らかにします。視覚的な観察結果を 3D で集約することにより、SfA は複数のパーツを正確に分割し、パーツのジオメトリを再構築し、基準座標フレーム内のすべての関節パラメーターを推測します。私たちの実験は、シミュレーションでトレーニングされた SfA モデルが、多様な構造を持つ多くの目に見えないオブジェクト カテゴリと現実世界のオブジェクトに一般化できることを示しています。経験的に、SfA は最先端のコンポーネントのパイプラインよりも 25.4 3D IoU の未見のカテゴリでパフォーマンスが優れており、同時に既にパフォーマンスの高い共同推定ベースラインと一致しています。
We introduce Structure from Action (SfA), a framework to discover 3D part geometry and joint parameters of unseen articulated objects via a sequence of inferred interactions. Our key insight is that 3D interaction and perception should be considered in conjunction to construct 3D articulated CAD models, especially for categories not seen during training. By selecting informative interactions, SfA discovers parts and reveals occluded surfaces, like the inside of a closed drawer. By aggregating visual observations in 3D, SfA accurately segments multiple parts, reconstructs part geometry, and infers all joint parameters in a canonical coordinate frame. Our experiments demonstrate that a SfA model trained in simulation can generalize to many unseen object categories with diverse structures and to real-world objects. Empirically, SfA outperforms a pipeline of state-of-the-art components by 25.4 3D IoU percentage points on unseen categories, while matching already performant joint estimation baselines.