この論文では、単一のRGB画像と、楕円体モデルで表されたオブジェクトの事前作成されたマップからのオブジェクトベースのカメラポーズ推定を提案します。ポイントの対応とは反対に、3Dオブジェクトの2Dオブジェクト検出への投影を特徴付けるコスト関数の定義は簡単ではないことを示します。レベルセットのサンプリングに基づいて楕円-楕円コストを開発し、部分的に表示されているオブジェクトを処理するための優れたプロパティを示し、そのパフォーマンスを他の一般的なメトリックと比較します。最後に、検出された楕円に予測の不確実性を使用すると、対応の寄与を公平に重み付けできるため、計算されたポーズが改善されることを示します。コードはhttps://gitlab.inria.fr/tangram/level-set-based-camera-pose-estimationでリリースされています。
In this paper, we propose an object-based camera pose estimation from a single RGB image and a pre-built map of objects, represented with ellipsoidal models. We show that contrary to point correspondences, the definition of a cost function characterizing the projection of a 3D object onto a 2D object detection is not straightforward. We develop an ellipse-ellipse cost based on level sets sampling, demonstrate its nice properties for handling partially visible objects and compare its performance with other common metrics. Finally, we show that the use of a predictive uncertainty on the detected ellipses allows a fair weighting of the contribution of the correspondences which improves the computed pose. The code is released at https://gitlab.inria.fr/tangram/level-set-based-camera-pose-estimation.