arXiv reaDer
6Dポーズ推定のための3Dポイントツーキーポイント投票ネットワーク
3D Point-to-Keypoint Voting Network for 6D Pose Estimation
オブジェクト6Dポーズ推定は、その幅広いアプリケーション要件と、現実世界の複雑さと変化によってもたらされる課題のために、コンピュータビジョンの分野における重要な研究トピックです。ポイント間の空間的関係の特性を十分に調査することで、特に背景が乱雑になったり部分的にオクルージョンしたりするシーンで、ポーズ推定のパフォーマンスを向上させることができると考えています。しかし、この情報は通常、RGB画像またはRGB-Dデータを使用した以前の作業では無視されていました。本論文では、3Dキーポイントの空間構造特性に基づくRGB-Dデータからの6Dポーズ推定のフレームワークを提案します。剛体の構造情報を駆使した3Dキーポイントに投票するために、ポイントごとの密な特徴埋め込みを採用しています。キーポイントを指す方向ベクトルがCNNによって予測された後、RANSAC投票を使用して3Dキーポイントの座標を計算し、最小二乗法によってポーズ変換を簡単に取得できます。さらに、ポイントの空間次元サンプリング戦略が採用されているため、この方法は小さなトレーニングセットで優れたパフォーマンスを実現します。提案された方法は、LINEMODとOCCLUSIONLINEMODの2つのベンチマークデータセットで検証されます。実験結果は、私たちの方法が最先端のアプローチを上回り、LINEMODデータセットで98.7%、OCCLUSION LINEMODデータセットで52.6%のADD(-S)精度をリアルタイムで達成することを示しています。
Object 6D pose estimation is an important research topic in the field of computer vision due to its wide application requirements and the challenges brought by complexity and changes in the real-world. We think fully exploring the characteristics of spatial relationship between points will help to improve the pose estimation performance, especially in the scenes of background clutter and partial occlusion. But this information was usually ignored in previous work using RGB image or RGB-D data. In this paper, we propose a framework for 6D pose estimation from RGB-D data based on spatial structure characteristics of 3D keypoints. We adopt point-wise dense feature embedding to vote for 3D keypoints, which makes full use of the structure information of the rigid body. After the direction vectors pointing to the keypoints are predicted by CNN, we use RANSAC voting to calculate the coordinate of the 3D keypoints, then the pose transformation can be easily obtained by the least square method. In addition, a spatial dimension sampling strategy for points is employed, which makes the method achieve excellent performance on small training sets. The proposed method is verified on two benchmark datasets, LINEMOD and OCCLUSION LINEMOD. The experimental results show that our method outperforms the state-of-the-art approaches, achieves ADD(-S) accuracy of 98.7% on LINEMOD dataset and 52.6% on OCCLUSION LINEMOD dataset in real-time.
updated: Tue Dec 22 2020 11:43:15 GMT+0000 (UTC)
published: Tue Dec 22 2020 11:43:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト