単一のRGB画像からの6Dポーズ推定は、コンピュータービジョンの基本的なタスクです。現在のトップパフォーマンスの深層学習ベースの方法は、間接戦略に依存しています。つまり、最初に画像平面の座標とオブジェクト座標系の間に2D-3D対応を確立し、次にPnP / RANSACアルゴリズムのバリアントを適用します。ただし、この2段階のパイプラインはエンドツーエンドでトレーニングできないため、差別化可能なポーズを必要とする多くのタスクに使用するのは困難です。一方、直接回帰に基づく方法は、現在、ジオメトリベースの方法より劣っています。この作業では、直接法と間接法の両方について詳細な調査を行い、6Dポーズを高密度からエンドツーエンドで学習するためのシンプルで効果的なジオメトリガイド型直接回帰ネットワーク(GDR-Net)を提案します。対応ベースの中間幾何学的表現。広範な実験により、私たちのアプローチは、LM、LM-O、およびYCB-Vデータセットの最先端の方法よりも著しく優れていることが示されています。コードはhttps://git.io/GDR-Netで入手できます。
6D pose estimation from a single RGB image is a fundamental task in computer vision. The current top-performing deep learning-based methods rely on an indirect strategy, i.e., first establishing 2D-3D correspondences between the coordinates in the image plane and object coordinate system, and then applying a variant of the PnP/RANSAC algorithm. However, this two-stage pipeline is not end-to-end trainable, thus is hard to be employed for many tasks requiring differentiable poses. On the other hand, methods based on direct regression are currently inferior to geometry-based methods. In this work, we perform an in-depth investigation on both direct and indirect methods, and propose a simple yet effective Geometry-guided Direct Regression Network (GDR-Net) to learn the 6D pose in an end-to-end manner from dense correspondence-based intermediate geometric representations. Extensive experiments show that our approach remarkably outperforms state-of-the-art methods on LM, LM-O and YCB-V datasets. Code is available at https://git.io/GDR-Net.