コンピューター ビジョンでは、3D の幾何学的エンティティとそれらの画像への投影との間の対応からカメラの姿勢を推定することは、広く調査されている問題です。ほとんどの最先端の方法は点や線などの低レベルのプリミティブを利用していますが、近年の非常に効果的な CNN ベースのオブジェクト検出器の出現により、意味的に意味のある高レベルの機能を使用する道が開かれました。情報。その方向での先駆的な研究により、楕円体による 3D オブジェクトのモデル化と楕円体による 2D 検出が、2D データと 3D データをリンクする便利な方法を提供することが示されました。ただし、関連する文献で最も頻繁に使用される数学的形式では、楕円体や楕円を他の 2 次曲線や円錐曲線から簡単に区別することはできません。さらに、射影方程式の線形化プロセスにより、カメラ パラメータが過剰に表現され、効率が低下する可能性もあります。したがって、この論文では、楕円体固有の理論的フレームワークを紹介し、姿勢推定のコンテキストでその有益な特性を示します。より正確には、提案された形式により、姿勢推定問題を、残りの未知数を閉じた形式で導出できる位置または方向のみの推定問題に減らすことができることを最初に示します。次に、それをさらに 1 自由度 (1DoF) の問題に縮小できることを示し、ポーズの分析的導出をその固有の未知のスカラーの関数として提供します。視覚的な例で理論的な考慮事項を説明し、実際的な側面についての議論を含めます。最後に、楕円体関連の姿勢推定問題のより効率的な解決に貢献するために、対応するソース コードとともにこの論文をリリースします。
In computer vision, camera pose estimation from correspondences between 3D geometric entities and their projections into the image has been a widely investigated problem. Although most state-of-the-art methods exploit low-level primitives such as points or lines, the emergence of very effective CNN-based object detectors in the recent years has paved the way to the use of higher-level features carrying semantically meaningful information. Pioneering works in that direction have shown that modelling 3D objects by ellipsoids and 2D detections by ellipses offers a convenient manner to link 2D and 3D data. However, the mathematical formalism most often used in the related litterature does not enable to easily distinguish ellipsoids and ellipses from other quadrics and conics, leading to a loss of specificity potentially detrimental in some developments. Moreover, the linearization process of the projection equation creates an over-representation of the camera parameters, also possibly causing an efficiency loss. In this paper, we therefore introduce an ellipsoid-specific theoretical framework and demonstrate its beneficial properties in the context of pose estimation. More precisely, we first show that the proposed formalism enables to reduce the pose estimation problem to a position or orientation-only estimation problem in which the remaining unknowns can be derived in closed-form. Then, we demonstrate that it can be further reduced to a 1 Degree-of-Freedom (1DoF) problem and provide the analytical derivations of the pose as a function of that unique scalar unknown. We illustrate our theoretical considerations by visual examples and include a discussion on the practical aspects. Finally, we release this paper along with the corresponding source code in order to contribute towards more efficient resolutions of ellipsoid-related pose estimation problems.