単一のカラー画像から6-DoFオブジェクトのポーズを直接推定することは困難であり、高精度の推定を実現するには、通常、後処理が必要です。本論文では、オブジェクトポーズの改良のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案します。これは、誤った初期ポーズとオクルージョンに対してロバストです。反復の繰り返し中に、オブジェクトポーズの改良は、推定された対応フィールド(レンダリングされた画像と観測された画像の間)に基づいて、非線形最小二乗問題として定式化されます。次に、この問題は、エンドツーエンドのトレーニング用の微分可能なLevenberg-Marquardt(LM)アルゴリズムによって解決されます。対応フィールドの推定とポーズの改良は、正確なオブジェクトのポーズを復元するために、各反復で交互に実行されます。さらに、オクルージョンに対するロバスト性を向上させるために、3Dモデルと観測された2D画像の学習された記述子に基づく整合性チェックメカニズムを導入します。これにより、ポーズの最適化中に信頼性の低い対応が軽量化されます。 LINEMOD、Occlusion-LINEMOD、およびYCB-Videoデータセットに関する広範な実験により、私たちの方法の有効性が検証され、最先端のパフォーマンスが実証されます。
Direct estimating the 6-DoF object pose from a single color image is challenging, and post-refinement is generally needed to achieve high-precision estimation. In this paper, we propose a framework based on a recurrent neural network (RNN) for object pose refinement, which is robust to erroneous initial poses and occlusions. During the recurrent iterations, object pose refinement is formulated as a non-linear least squares problem based on the estimated correspondence field (between a rendered image and the observed image). The problem is then solved by a differentiable Levenberg-Marquardt (LM) algorithm for end-toend training. The correspondence field estimation and pose refinement are conducted alternatively in each iteration to recover accurate object poses. Furthermore, to improve the robustness to occlusions, we introduce a consistencycheck mechanism based on the learned descriptors of the 3D model and observed 2D image, which downweights the unreliable correspondences during pose optimization. Extensive experiments on LINEMOD, Occlusion-LINEMOD, and YCB-Video datasets validate the effectiveness of our method and demonstrate state-of-the-art performance.