arXiv reaDer
SAR-Net:カテゴリレベルの6Dオブジェクトのポーズとサイズの推定のための形状調整および回復ネットワーク
SAR-Net: Shape Alignment and Recovery Network for Category-level 6D Object Pose and Size Estimation
単一のシーン画像を前提として、この論文では、外部の実際のポーズ注釈付きトレーニングデータを使用せずに、ターゲットオブジェクトの点群からカテゴリレベルの6Dオブジェクトポーズおよびサイズ推定(COPSE)の方法を提案します。具体的には、RGB画像の視覚的な手がかりを超えて、主に深度(D)チャネルからの形状情報に依存しています。重要なアイデアは、対応するカテゴリレベルのテンプレート形状に対する各インスタンスの形状の配置、および粗い3Dオブジェクト形状を推定するための各オブジェクトカテゴリの対称的な対応を調査することです。私たちのフレームワークは、カテゴリレベルのテンプレート形状の点群を変形して、観測されたインスタンスの点群を整列させ、その3D回転を暗黙的に表現します。次に、部分的に観測された点群から対称点群を予測することにより、対称対応をモデル化します。観測された点群と対称点群を連結すると、粗いオブジェクトの形状が再構築されるため、オブジェクトの中心(3D平行移動)と3Dサイズの推定が容易になります。カテゴリレベルのNOCSベンチマークに関する広範な実験は、軽量モデルが、ラベル付けされた実世界の画像を必要とする最先端のアプローチと依然として競合していることを示しています。また、物理的なバクスターロボットにアプローチを展開して、見えないがカテゴリが既知のインスタンスで把握タスクを実行し、その結果により、提案されたモデルの有効性がさらに検証されます。コードと事前トレーニング済みモデルは、プロジェクトのWebページで入手できます。
Given a single scene image, this paper proposes a method of Category-level 6D Object Pose and Size Estimation (COPSE) from the point cloud of the target object, without external real pose-annotated training data. Specifically, beyond the visual cues in RGB images, we rely on the shape information predominately from the depth (D) channel. The key idea is to explore the shape alignment of each instance against its corresponding category-level template shape, and the symmetric correspondence of each object category for estimating a coarse 3D object shape. Our framework deforms the point cloud of the category-level template shape to align the observed instance point cloud for implicitly representing its 3D rotation. Then we model the symmetric correspondence by predicting symmetric point cloud from the partially observed point cloud. The concatenation of the observed point cloud and symmetric one reconstructs a coarse object shape, thus facilitating object center (3D translation) and 3D size estimation. Extensive experiments on the category-level NOCS benchmark demonstrate that our lightweight model still competes with state-of-the-art approaches that require labeled real-world images. We also deploy our approach to a physical Baxter robot to perform grasping tasks on unseen but category-known instances, and the results further validate the efficacy of our proposed model. Code and pre-trained models are available on the project webpage.
updated: Mon Apr 11 2022 13:44:23 GMT+0000 (UTC)
published: Sun Jun 27 2021 10:41:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト