NOPE: 単一画像からの新しい物体姿勢推定
NOPE: Novel Object Pose Estimation from a Single Image
3D オブジェクトの姿勢推定の実用性は、3D モデルの予備知識と新しいオブジェクトのトレーニング期間が必要なため、多くのアプリケーションで制限されたままです。この制限に対処するために、新しいオブジェクトの 1 つの画像を入力として取り、オブジェクトの 3D モデルを事前に知らなくても、新しいオブジェクトとカテゴリのトレーニング時間を必要とせずに、新しい画像でこのオブジェクトの相対的な姿勢を予測するアプローチを提案します。これは、モデルをトレーニングして、オブジェクトを囲む視点の識別埋め込みを直接予測することで実現します。この予測は、単純な U-Net アーキテクチャを使用して行われ、目的のポーズに注意を払い、調整されます。これにより、非常に高速な推論が得られます。私たちのアプローチを最先端の方法と比較し、精度と堅牢性の両方の点で優れていることを示します。私たちのソース コードは、 で公開されています。
The practicality of 3D object pose estimation remains limited for many applications due to the need for prior knowledge of a 3D model and a training period for new objects. To address this limitation, we propose an approach that takes a single image of a new object as input and predicts the relative pose of this object in new images without prior knowledge of the object's 3D model and without requiring training time for new objects and categories. We achieve this by training a model to directly predict discriminative embeddings for viewpoints surrounding the object. This prediction is done using a simple U-Net architecture with attention and conditioned on the desired pose, which yields extremely fast inference. We compare our approach to state-of-the-art methods and show it outperforms them both in terms of accuracy and robustness. Our source code is publicly available at
updated: Fri Mar 29 2024 23:42:05 GMT+0000 (UTC)
published: Thu Mar 23 2023 18:55:43 GMT+0000 (UTC)
