オブジェクトの 6D ポーズの推定は、3D コンピュータ ビジョンの主要な問題です。インスタンス レベルのアプローチから有望な結果が得られたため、研究の責任者は、より実用的なアプリケーション シナリオのために、カテゴリ レベルの姿勢推定にも移行しています。ただし、十分に確立されたインスタンス レベルのポーズ データセットとは異なり、利用可能なカテゴリ レベルのデータセットには、アノテーションの品質と提供されるポーズの量がありません。新しいカテゴリ レベルの 6D ポーズ データセット HouseCat6D を提案します。1) ポラリメトリック RGB と深度 (RGBD+P) のマルチモダリティ、2) 測光的に難しい 2 つのカテゴリを含む 10 の家庭用オブジェクト カテゴリの非常に多様な 194 個のオブジェクト、3) 高品質わずか 1.35 mm から 1.74 mm のエラー範囲のポーズ アノテーション、4) 広範な視点範囲とオクルージョンを備えた 41 の大規模シーン、5) シーン全体にわたるチェッカーボードのない環境、および 6) さらに注釈付きの密な 6D 平行顎把握.さらに、最先端のカテゴリ レベルのポーズ推定ネットワークのベンチマーク結果も提供します。
Estimating the 6D pose of objects is a major 3D computer vision problem. Since the promising outcomes from instance-level approaches, research heads also move towards category-level pose estimation for more practical application scenarios. However, unlike well-established instance-level pose datasets, available category-level datasets lack annotation quality and provided pose quantity. We propose the new category-level 6D pose dataset HouseCat6D featuring 1) Multi-modality of Polarimetric RGB and Depth (RGBD+P), 2) Highly diverse 194 objects of 10 household object categories including 2 photometrically challenging categories, 3) High-quality pose annotation with an error range of only 1.35 mm to 1.74 mm, 4) 41 large-scale scenes with extensive viewpoint coverage and occlusions, 5) Checkerboard-free environment throughout the entire scene, and 6) Additionally annotated dense 6D parallel-jaw grasps. Furthermore, we also provide benchmark results of state-of-the-art category-level pose estimation networks.