画像からオブジェクトの6Dポーズを推定することは、ロボット操作や仮想現実などのさまざまなアプリケーションで重要な問題です。画像のオブジェクトポーズへの直接回帰の精度は限られていますが、オブジェクトのレンダリングされた画像と観測画像を一致させると、正確な結果が得られます。この作業では、DeepIMという名前の6Dポーズマッチング用の新しいディープニューラルネットワークを提案します。最初のポーズ推定が与えられると、ネットワークは、レンダリングされた画像を観察画像と照合することにより、ポーズを繰り返し改良することができます。ネットワークは、3D位置と3D方向のもつれのない表現と反復トレーニングプロセスを使用して、相対的な姿勢変換を予測するようにトレーニングされています。 6D姿勢推定に一般的に使用される2つのベンチマークの実験は、DeepIMが最新の方法よりも大幅に改善されていることを示しています。さらに、DeepIMが以前は見えなかったオブジェクトと一致できることを示します。
Estimating the 6D pose of objects from images is an important problem in various applications such as robot manipulation and virtual reality. While direct regression of images to object poses has limited accuracy, matching rendered images of an object against the observed image can produce accurate results. In this work, we propose a novel deep neural network for 6D pose matching named DeepIM. Given an initial pose estimation, our network is able to iteratively refine the pose by matching the rendered image against the observed image. The network is trained to predict a relative pose transformation using an untangled representation of 3D location and 3D orientation and an iterative training process. Experiments on two commonly used benchmarks for 6D pose estimation demonstrate that DeepIM achieves large improvements over state-of-the-art methods. We furthermore show that DeepIM is able to match previously unseen objects.