対称性のような視覚的な曖昧さについての事前の知識がなくても、データからオブジェクトの表面上の密で連続的な2D-3D対応分布を学習するためのアプローチを提示します。また、学習した分布を使用して剛体オブジェクトの6Dポーズ推定の新しい方法を提示し、ポーズ仮説をサンプリング、スコアリング、および改良します。対応分布は、エンコーダー-デコーダークエリモデルと小さな完全に接続されたキーモデルによってオブジェクト固有の潜在空間で表される、対照的な損失で学習されます。私たちの方法は、視覚的な曖昧さに関して教師なしですが、クエリモデルとキーモデルが正確なマルチモーダル表面分布を表すことを学習することを示しています。私たちのポーズ推定方法は、実際のデータでトレーニングされた方法と比較しても、純粋に合成データでトレーニングされた包括的なBOPチャレンジの最先端を大幅に改善します。プロジェクトサイトはhttps://surfemb.github.io/にあります。
We present an approach to learn dense, continuous 2D-3D correspondence distributions over the surface of objects from data with no prior knowledge of visual ambiguities like symmetry. We also present a new method for 6D pose estimation of rigid objects using the learnt distributions to sample, score and refine pose hypotheses. The correspondence distributions are learnt with a contrastive loss, represented in object-specific latent spaces by an encoder-decoder query model and a small fully connected key model. Our method is unsupervised with respect to visual ambiguities, yet we show that the query- and key models learn to represent accurate multi-modal surface distributions. Our pose estimation method improves the state-of-the-art significantly on the comprehensive BOP Challenge, trained purely on synthetic data, even compared with methods trained on real data. The project site is at https://surfemb.github.io/ .