現在の6Dオブジェクトポーズメソッドは、1つのオブジェクトに対して完全に最適化されたディープCNNモデルで構成されていますが、そのアーキテクチャは異なる形状のオブジェクト間で標準化されています。前の作品とは対照的に、自動化されたプロセスで、後処理の洗練段階の前に、各オブジェクトの異なるトポロジ情報、つまりポーズ推定モデルの3D密メッシュを明示的に活用します。これを実現するために、グラフ畳み込みニューラルネットワークがオブジェクトのポーズ条件付き3Dメッシュを再構築する学習フレームワークを提案します。アロセントリックな方向のロバストな推定は、微分可能な方法で、正準と再構築された高密度3Dメッシュ間のプロクルステスのアライメントを計算することにより回復されます。次に、追加のマスクと2D重心投影推定を使用して、6Dのエゴセントリックポーズが解除されます。私たちの方法は、再構築されたメッシュの品質を測定することで、姿勢推定を自己検証できます。これは、実際のアプリケーションでは非常に貴重です。 LINEMOD、OCCLUSION、およびYCB-Videoベンチマークでの実験では、提案された方法は最先端技術よりも優れています。
Current 6D object pose methods consist of deep CNN models fully optimized for a single object but with its architecture standardized among objects with different shapes. In contrast to previous works, we explicitly exploit each object's distinct topological information i.e. 3D dense meshes in the pose estimation model, with an automated process and prior to any post-processing refinement stage. In order to achieve this, we propose a learning framework in which a Graph Convolutional Neural Network reconstructs a pose conditioned 3D mesh of the object. A robust estimation of the allocentric orientation is recovered by computing, in a differentiable manner, the Procrustes' alignment between the canonical and reconstructed dense 3D meshes. 6D egocentric pose is then lifted using additional mask and 2D centroid projection estimations. Our method is capable of self validating its pose estimation by measuring the quality of the reconstructed mesh, which is invaluable in real life applications. In our experiments on the LINEMOD, OCCLUSION and YCB-Video benchmarks, the proposed method outperforms state-of-the-arts.