自律ロボット操作では、操作するオブジェクトの平行移動と向きを6自由度(6D)ポーズとして推定します。 RGB-Dデータを使用する方法は、この問題の解決に大きな成功を収めています。ただし、コストの制約や作業環境によってRGB-Dセンサーの使用が制限される場合があります。単眼カメラデータのみに限定すると、オブジェクトポーズ推定の問題は非常に困難になります。この作業では、単眼画像から6Dオブジェクトのポーズを予測するSilhoNetと呼ばれる新しい方法を紹介します。関心領域(ROI)の提案を取り込むたたみ込みニューラルネットワーク(CNN)パイプラインを使用して、関連するオクルージョンマスクと3D並進ベクトルを持つオブジェクトの中間シルエット表現を同時に予測します。次に、3D方向が予測されたシルエットから後退します。私たちの方法は、YCBビデオデータセットで、単眼画像入力からの6D姿勢推定のための2つの最先端ネットワークよりも全体的なパフォーマンスが優れていることを示しています。
Autonomous robot manipulation involves estimating the translation and orientation of the object to be manipulated as a 6-degree-of-freedom (6D) pose. Methods using RGB-D data have shown great success in solving this problem. However, there are situations where cost constraints or the working environment may limit the use of RGB-D sensors. When limited to monocular camera data only, the problem of object pose estimation is very challenging. In this work, we introduce a novel method called SilhoNet that predicts 6D object pose from monocular images. We use a Convolutional Neural Network (CNN) pipeline that takes in Region of Interest (ROI) proposals to simultaneously predict an intermediate silhouette representation for objects with an associated occlusion mask and a 3D translation vector. The 3D orientation is then regressed from the predicted silhouettes. We show that our method achieves better overall performance on the YCB-Video dataset than two state-of-the art networks for 6D pose estimation from monocular image input.