この論文は、単一の深度画像とターゲットオブジェクトマスクからのモデルベースの6Dオブジェクトポーズ推定のためのOVE6Dと呼ばれるユニバーサルフレームワークを提案します。私たちのモデルは、ShapeNetからレンダリングされた純粋な合成データを使用してトレーニングされており、既存のメソッドのほとんどとは異なり、微調整なしで新しい実世界のオブジェクトにうまく一般化されます。これは、6Dポーズを視点に分解し、カメラの光軸を中心とした面内回転と平行移動を行い、各コンポーネントをカスケード方式で推定するための新しい軽量モジュールを導入することで実現します。結果として得られるネットワークには、データセット固有のトレーニングなしで、挑戦的なT-LESSおよびOccluded LINEMODデータセットで優れたパフォーマンスを示しながら、4M未満のパラメーターが含まれます。 OVE6Dは、実際のトレーニングデータを使用して個々のオブジェクトまたはデータセット用に特別にトレーニングされた、現代の深層学習ベースのポーズ推定方法よりも優れていることを示します。実装と事前トレーニング済みモデルは公開されます。
This paper proposes a universal framework, called OVE6D, for model-based 6D object pose estimation from a single depth image and a target object mask. Our model is trained using purely synthetic data rendered from ShapeNet, and, unlike most of the existing methods, it generalizes well on new real-world objects without any fine-tuning. We achieve this by decomposing the 6D pose into viewpoint, in-plane rotation around the camera optical axis and translation, and introducing novel lightweight modules for estimating each component in a cascaded manner. The resulting network contains less than 4M parameters while demonstrating excellent performance on the challenging T-LESS and Occluded LINEMOD datasets without any dataset-specific training. We show that OVE6D outperforms some contemporary deep learning-based pose estimation methods specifically trained for individual objects or datasets with real-world training data. The implementation and the pre-trained model will be made publicly available.