最新の6Dポーズ推定フレームワークは、まずディープネットワークに依存して3Dオブジェクトのキーポイントと2D画像の位置との対応を確立し、次にRANSACベースのPerspective-n-Point(PnP)アルゴリズムのバリアントを使用します。ただし、この2段階のプロセスは最適ではありません。まず、エンドツーエンドのトレーニングが不可能です。第二に、深いネットワークのトレーニングは、最終的な6Dポーズ推定タスクを直接反映しない代理損失に依存しています。この作業では、通信から6Dポーズを直接回帰する深いアーキテクチャを紹介します。入力として各3Dキーポイントの候補通信のグループを取得し、各グループ内の通信の順序は無関係であるという事実を説明しますが、グループ、つまり3Dキーポイントの順序は固定されています。私たちのアーキテクチャは汎用的であるため、既存の対応関係抽出ネットワークと組み合わせて利用して、シングルステージの6Dポーズ推定フレームワークを生成できます。私たちの実験は、これらの単一段階のフレームワークが、精度と速度の両方の点で一貫して、2段階の対応フレームワークより優れていることを示しています。
Most recent 6D pose estimation frameworks first rely on a deep network to establish correspondences between 3D object keypoints and 2D image locations and then use a variant of a RANSAC-based Perspective-n-Point (PnP) algorithm. This two-stage process, however, is suboptimal: First, it is not end-to-end trainable. Second, training the deep network relies on a surrogate loss that does not directly reflect the final 6D pose estimation task. In this work, we introduce a deep architecture that directly regresses 6D poses from correspondences. It takes as input a group of candidate correspondences for each 3D keypoint and accounts for the fact that the order of the correspondences within each group is irrelevant, while the order of the groups, that is, of the 3D keypoints, is fixed. Our architecture is generic and can thus be exploited in conjunction with existing correspondence-extraction networks so as to yield single-stage 6D pose estimation frameworks. Our experiments demonstrate that these single-stage frameworks consistently outperform their two-stage counterparts in terms of both accuracy and speed.