1つまたは複数のポーズのないRGB画像から関節オブジェクトをカテゴリレベルで3D再構成する方法であるStrobeNetを紹介します。一般的なアーティキュレーションオブジェクトカテゴリの再構築には重要なアプリケーションがありますが、オブジェクトの形状、アーティキュレーション、外観、およびトポロジが大きく異なる可能性があるため、困難です。カテゴリレベルのアーティキュレーションの正規化のアイデアに基づいてこれに対処します。つまり、観測を正規のアーティキュレーションにマッピングして、対応のないマルチビュー集約を可能にします。エンドツーエンドのトレーニング可能なニューラルネットワークは、オブジェクトの1つまたは複数のポーズのない画像から、機能が豊富な標準的な3Dポイントクラウド、アーティキュレーションジョイント、およびパーツのセグメンテーションを推定します。これらの中間推定値は、最終的な暗黙の3D再構成を生成するために使用されます。私たちのアプローチでは、ベースラインが大きい画像のさまざまなアーティキュレーションや再構成された形状のアニメーションで観察された場合でも、オブジェクトを再構成します。さまざまなオブジェクトカテゴリの定量的および定性的評価は、特にビューが追加されるにつれて、私たちの方法が高い再構成精度を達成できることを示しています。
We present StrobeNet, a method for category-level 3D reconstruction of articulating objects from one or more unposed RGB images. Reconstructing general articulating object categories % has important applications, but is challenging since objects can have wide variation in shape, articulation, appearance and topology. We address this by building on the idea of category-level articulation canonicalization -- mapping observations to a canonical articulation which enables correspondence-free multiview aggregation. Our end-to-end trainable neural network estimates feature-enriched canonical 3D point clouds, articulation joints, and part segmentation from one or more unposed images of an object. These intermediate estimates are used to generate a final implicit 3D reconstruction.Our approach reconstructs objects even when they are observed in different articulations in images with large baselines, and animation of reconstructed shapes. Quantitative and qualitative evaluations on different object categories show that our method is able to achieve high reconstruction accuracy, especially as more views are added.