最近、RGBDベースのカテゴリレベルの6Dオブジェクトポーズ推定により、パフォーマンスの向上が期待できますが、深度情報の要件により、より広範なアプリケーションが禁止されています。この問題を軽減するために、本論文では、カテゴリレベルの6Dオブジェクトポーズ推定の入力としてRGB画像のみを使用するオブジェクトレベル深度再構成ネットワーク(OLD-Net)という新しいアプローチを提案します。オブジェクトレベルの深さと標準的なNOCS表現に前にカテゴリレベルの形状を変形することにより、単眼RGB画像からオブジェクトレベルの深さを直接予測することを提案します。 Normalized Global Position Hints(NGPH)およびShape-aware Decoupled Depth Reconstruction(SDDR)モジュールという2つの新しいモジュールが導入され、忠実度の高いオブジェクトレベルの深度と繊細な形状表現を学習します。最後に、6Dオブジェクトのポーズは、予測された標準表現を逆投影されたオブジェクトレベルの深さに揃えることによって解決されます。挑戦的なCAMERA25およびREAL275データセットに関する広範な実験は、私たちのモデルが単純であるにもかかわらず、最先端のパフォーマンスを達成していることを示しています。
Recently, RGBD-based category-level 6D object pose estimation has achieved promising improvement in performance, however, the requirement of depth information prohibits broader applications. In order to relieve this problem, this paper proposes a novel approach named Object Level Depth reconstruction Network (OLD-Net) taking only RGB images as input for category-level 6D object pose estimation. We propose to directly predict object-level depth from a monocular RGB image by deforming the category-level shape prior into object-level depth and the canonical NOCS representation. Two novel modules named Normalized Global Position Hints (NGPH) and Shape-aware Decoupled Depth Reconstruction (SDDR) module are introduced to learn high fidelity object-level depth and delicate shape representations. At last, the 6D object pose is solved by aligning the predicted canonical representation with the back-projected object-level depth. Extensive experiments on the challenging CAMERA25 and REAL275 datasets indicate that our model, though simple, achieves state-of-the-art performance.