6D Pose Estimation with Correlation Fusion
6Dオブジェクトポーズ推定は、把持や操作などのロボットタスクに広く適用されます。 RGBのみの画像を使用する以前の方法は、重いオクルージョンと不十分な照明に対して脆弱であるため、深度情報でそれらを補完することが重要です。ただし、RGB-Dデータを使用する既存の方法では、RGBと深度モダリティ間の一貫性のある補完的な情報を適切に活用できません。この論文では、識別的でコンパクトなマルチモーダル機能を学習するために、注意メカニズムを使用して、両方のモダリティ内およびモダリティ間の相関を効果的に検討するための新しい方法を提示します。次に、RGBと深度の間の効率的な情報フローを確保するために、相関内モジュールと相関モジュール間の効果的な融合戦略が検討されます。私たちの知る限り、これは6Dポーズ推定における効果的なモダリティ内およびモダリティ間の融合を探求する最初の作業です。実験結果は、私たちの方法がLineMODおよびYCB-Videoデータセットで最先端のパフォーマンスを達成できることを示しています。また、提案された方法が、正確な物体姿勢推定を提供することにより、実際のロボット把持タスクに役立つことを示します。
6D object pose estimation is widely applied in robotic tasks such as grasping and manipulation. Prior methods using RGB-only images are vulnerable to heavy occlusion and poor illumination, so it is important to complement them with depth information. However, existing methods using RGB-D data cannot adequately exploit consistent and complementary information between RGB and depth modalities. In this paper, we present a novel method to effectively consider the correlation within and across both modalities with attention mechanism to learn discriminative and compact multi-modal features. Then, effective fusion strategies for intra- and inter-correlation modules are explored to ensure efficient information flow between RGB and depth. To our best knowledge, this is the first work to explore effective intra- and inter-modality fusion in 6D pose estimation. The experimental results show that our method can achieve the state-of-the-art performance on LineMOD and YCB-Video dataset. We also demonstrate that the proposed method can benefit a real-world robot grasping task by providing accurate object pose estimation.
updated: Tue Apr 06 2021 06:49:06 GMT+0000 (UTC)
published: Tue Sep 24 2019 04:12:50 GMT+0000 (UTC)
