FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism
この論文では、単眼RGB-D画像からのカテゴリレベルの6Dポーズとサイズの推定に焦点を当てます。以前の方法は、非効率的なカテゴリレベルのポーズ特徴抽出に悩まされており、精度と推論速度が低くなっています。この問題に取り組むために、6Dポーズ推定のための効率的なカテゴリレベルの特徴抽出を備えた高速形状ベースネットワーク(FS-Net)を提案します。最初に、潜在的特徴抽出のための3Dグラフ畳み込みを備えた方向認識オートエンコーダーを設計します。学習された潜在特徴は、3Dグラフ畳み込みのシフトおよびスケール不変性のプロパティのおかげで、ポイントシフトおよびオブジェクトサイズの影響を受けません。次に、潜在的な特徴からカテゴリレベルの回転情報を効率的にデコードするために、2つのデコーダを使用して回転情報に補完的にアクセスする新しい分離回転メカニズムを提案します。一方、変換とサイズは、オブジェクトポイントの平均とグラウンドトゥルース変換の差、およびカテゴリの平均サイズとグラウンドトゥルースサイズの差である2つの残差によってそれぞれ推定されます。最後に、FS-Netの一般化能力を高めるために、トレーニングデータを補強するためのオンラインボックスケージベースの3D変形メカニズムを提案します。 2つのベンチマークデータセットでの広範な実験は、提案された方法がカテゴリレベルとインスタンスレベルの両方の6Dオブジェクトポーズ推定で最先端のパフォーマンスを達成することを示しています。特にカテゴリレベルのポーズ推定では、追加の合成データがないため、NOCS-REALデータセットで既存のメソッドを6.3%上回っています。
In this paper, we focus on category-level 6D pose and size estimation from monocular RGB-D image. Previous methods suffer from inefficient category-level pose feature extraction which leads to low accuracy and inference speed. To tackle this problem, we propose a fast shape-based network (FS-Net) with efficient category-level feature extraction for 6D pose estimation. First, we design an orientation aware autoencoder with 3D graph convolution for latent feature extraction. The learned latent feature is insensitive to point shift and object size thanks to the shift and scale-invariance properties of the 3D graph convolution. Then, to efficiently decode category-level rotation information from the latent feature, we propose a novel decoupled rotation mechanism that employs two decoders to complementarily access the rotation information. Meanwhile, we estimate translation and size by two residuals, which are the difference between the mean of object points and ground truth translation, and the difference between the mean size of the category and ground truth size, respectively. Finally, to increase the generalization ability of FS-Net, we propose an online box-cage based 3D deformation mechanism to augment the training data. Extensive experiments on two benchmark datasets show that the proposed method achieves state-of-the-art performance in both category- and instance-level 6D object pose estimation. Especially in category-level pose estimation, without extra synthetic data, our method outperforms existing methods by 6.3% on the NOCS-REAL dataset.
updated: Sun Jun 06 2021 09:50:51 GMT+0000 (UTC)
published: Fri Mar 12 2021 03:07:24 GMT+0000 (UTC)
