姿勢推定は、ロボット操作、自律車両ナビゲーションなど、多くのロボット工学および知覚タスクの重要なステップです。現在の最先端の姿勢推定法は、複雑な構造と長い推論時間を備えたディープニューラルネットワークに依存しています。非常に堅牢ではありますが、モバイルロボットでは利用できないことが多い計算能力が必要です。 CNNベースのポーズ調整システムを提案します。これは、オブジェクトのバウンディングボックス画像とともに、より安価なアルゴリズムから粗く推定された3Dポーズを取り、高度に調整されたポーズを返します。 YCB-Videoデータセットの実験では、システムが最小限のトレーニングデータで3Dポーズを非常に高い精度に調整できることが示されています。
Pose estimation is a vital step in many robotics and perception tasks such as robotic manipulation, autonomous vehicle navigation, etc. Current state-of-the-art pose estimation methods rely on deep neural networks with complicated structures and long inference times. While highly robust, they require computing power often unavailable on mobile robots. We propose a CNN-based pose refinement system which takes a coarsely estimated 3D pose from a computationally cheaper algorithm along with a bounding box image of the object, and returns a highly refined pose. Our experiments on the YCB-Video dataset show that our system can refine 3D poses to an extremely high precision with minimal training data.