arXiv reaDer
セマンティック プリミティブを使用した生成カテゴリ レベルの形状とポーズの推定
Generative Category-Level Shape and Pose Estimation with Semantic Primitives
日常のオブジェクトを 3D で理解して自律エージェントを強化することは、ロボティクス アプリケーションにおける大きな課題です。未知の環境で探索する場合、物体の形状が多様であるため、物体の姿勢を推定するための既存の方法は依然として満足のいくものではありません。この論文では、単一のRGB-D画像からカテゴリレベルのオブジェクトの形状と姿勢を推定するための新しいフレームワークを提案します。カテゴリ内の変動を処理するために、さまざまな形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用します。これは、観測された点群と推定された形状の間の信頼できる対応を確立するための鍵です。次に、SIM(3) 不変の形状記述子を使用して、オブジェクトの形状とポーズを適切に分離し、任意のポーズでターゲット オブジェクトの潜在的な形状の最適化をサポートします。広範な実験により、提案された方法が実世界のデータセットで SOTA ポーズ推定パフォーマンスとより良い一般化を達成することが示されています。コードとビデオは、https://zju3dv.github.io/gCasp で入手できます。
Empowering autonomous agents with 3D understanding for daily objects is a grand challenge in robotics applications. When exploring in an unknown environment, existing methods for object pose estimation are still not satisfactory due to the diversity of object shapes. In this paper, we propose a novel framework for category-level object shape and pose estimation from a single RGB-D image. To handle the intra-category variation, we adopt a semantic primitive representation that encodes diverse shapes into a unified latent space, which is the key to establish reliable correspondences between observed point clouds and estimated shapes. Then, by using a SIM(3)-invariant shape descriptor, we gracefully decouple the shape and pose of an object, thus supporting latent shape optimization of target objects in arbitrary poses. Extensive experiments show that the proposed method achieves SOTA pose estimation performance and better generalization in the real-world dataset. Code and video are available at https://zju3dv.github.io/gCasp.
updated: Wed Feb 01 2023 06:12:26 GMT+0000 (UTC)
published: Mon Oct 03 2022 17:51:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト