6Dオブジェクトのポーズ推定は最近大きな飛躍を遂げましたが、ほとんどのメソッドはまだ1つまたは少数の異なるオブジェクトしか処理できないため、アプリケーションが制限されます。この問題を回避するために、カテゴリレベルのオブジェクトポーズ推定が最近改良されました。これは、特定のオブジェクトクラスのセットから以前に表示されなかったインスタンスの6Dポーズと3Dメトリックサイズを予測することを目的としています。ただし、これは、クラス内の形状のばらつきが大きいため、はるかに困難な作業です。この問題に対処するために、GPV-Poseを提案します。これは、堅牢なカテゴリレベルのポーズ推定のための新しいフレームワークであり、幾何学的洞察を利用してカテゴリレベルのポーズに敏感な機能の学習を強化します。最初に、分離された信頼駆動型回転表現を紹介します。これにより、関連する回転行列のジオメトリ対応の回復が可能になります。次に、3Dオブジェクトバウンディングボックスをロバストに検索するための、新しいジオメトリガイドによるポイントワイズ投票パラダイムを提案します。最後に、これらのさまざまな出力ストリームを活用して、いくつかの幾何学的整合性項を適用し、特に非対称カテゴリのパフォーマンスをさらに向上させることができます。 GPV-Poseは、一般的な公開ベンチマークで最先端の競合他社よりも優れた結果を生み出し、20FPSでほぼリアルタイムの推論速度を達成します。
While 6D object pose estimation has recently made a huge leap forward, most methods can still only handle a single or a handful of different objects, which limits their applications. To circumvent this problem, category-level object pose estimation has recently been revamped, which aims at predicting the 6D pose as well as the 3D metric size for previously unseen instances from a given set of object classes. This is, however, a much more challenging task due to severe intra-class shape variations. To address this issue, we propose GPV-Pose, a novel framework for robust category-level pose estimation, harnessing geometric insights to enhance the learning of category-level pose-sensitive features. First, we introduce a decoupled confidence-driven rotation representation, which allows geometry-aware recovery of the associated rotation matrix. Second, we propose a novel geometry-guided point-wise voting paradigm for robust retrieval of the 3D object bounding box. Finally, leveraging these different output streams, we can enforce several geometric consistency terms, further increasing performance, especially for non-symmetric categories. GPV-Pose produces superior results to state-of-the-art competitors on common public benchmarks, whilst almost achieving real-time inference speed at 20 FPS.