arXiv reaDer
SO-Pose:直接6Dポーズ推定のための自己閉塞の活用
SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation
雑然とした環境で、オブジェクトのポーズ(3D回転や平行移動など)の6自由度(6DoF)をすべて、単一のRGB画像から直接回帰することは難しい問題です。エンドツーエンドの方法は最近、高効率で有望な結果を示していますが、ポーズの精度の点で、精巧なPnP / RANSACベースのアプローチと比較するとまだ劣っています。この作業では、エンドツーエンドの6Dポーズ推定の精度を大幅に向上させる、3Dオブジェクトの2層表現を確立するために、自己閉塞に関する新しい推論によってこの欠点に対処します。 SO-Poseという名前のフレームワークは、単一のRGB画像を入力として受け取り、共有エンコーダーと2つの別個のデコーダーを利用して2D-3D対応と自己閉塞情報をそれぞれ生成します。次に、両方の出力が融合されて、6DoFポーズパラメータが直接回帰されます。対応、自己閉塞、6Dポーズを調整するクロスレイヤーの一貫性を組み込むことで、精度と堅牢性をさらに向上させ、さまざまな困難なデータセットに対する他のすべての最先端のアプローチを上回るか、それに匹敵することができます。
Directly regressing all 6 degrees-of-freedom (6DoF) for the object pose (e.g. the 3D rotation and translation) in a cluttered environment from a single RGB image is a challenging problem. While end-to-end methods have recently demonstrated promising results at high efficiency, they are still inferior when compared with elaborate PnP/RANSAC-based approaches in terms of pose accuracy. In this work, we address this shortcoming by means of a novel reasoning about self-occlusion, in order to establish a two-layer representation for 3D objects which considerably enhances the accuracy of end-to-end 6D pose estimation. Our framework, named SO-Pose, takes a single RGB image as input and respectively generates 2D-3D correspondences as well as self-occlusion information harnessing a shared encoder and two separate decoders. Both outputs are then fused to directly regress the 6DoF pose parameters. Incorporating cross-layer consistencies that align correspondences, self-occlusion and 6D pose, we can further improve accuracy and robustness, surpassing or rivaling all other state-of-the-art approaches on various challenging datasets.
updated: Wed Aug 18 2021 19:49:29 GMT+0000 (UTC)
published: Wed Aug 18 2021 19:49:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト