arXiv reaDer
閉塞を意識した自己監視単眼6Dオブジェクトポーズ推定
Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation
6Dオブジェクトのポーズ推定は、コンピュータビジョンにおける基本的でありながら困難な問題です。畳み込みニューラルネットワーク(CNN)は、単眼設定でも信頼性の高い6Dポーズ推定を予測できることが最近証明されました。それにもかかわらず、CNNは非常にデータ駆動型であると識別されており、適切な注釈を取得することは、多くの場合、非常に時間と労力を要します。この制限を克服するために、実際の注釈の必要性を排除して、自己監視学習による新しい単眼6Dポーズ推定アプローチを提案します。合成RGBデータで完全に監視された提案されたネットワークをトレーニングした後、ノイズの多い学生トレーニングと微分可能なレンダリングの現在の傾向を活用して、これらの監視されていない実際のRGB(-D)サンプルのモデルをさらに自己監視し、視覚的および幾何学的に最適な配置を探します。さらに、可視マスク情報と非モーダルマスク情報の両方を使用することで、オクルージョンなどの困難なシナリオに対して、自己監視が非常に堅牢になります。広範な評価は、提案された自己監視が、合成データに依存する、またはドメイン適応領域からの精巧な技術を採用する他のすべての方法よりも優れていることを示しています。注目に値するのは、私たちの自己教師ありアプローチは、総合的に訓練されたベースラインを一貫して改善し、完全に教師ありの対応物とのギャップをほぼ埋めることが多いことです。コードとモデルは、https://github.com/THU-DA-6D-Pose-Group/self6dpp.gitで公開されています。
6D object pose estimation is a fundamental yet challenging problem in computer vision. Convolutional Neural Networks (CNNs) have recently proven to be capable of predicting reliable 6D pose estimates even under monocular settings. Nonetheless, CNNs are identified as being extremely data-driven, and acquiring adequate annotations is oftentimes very time-consuming and labor intensive. To overcome this limitation, we propose a novel monocular 6D pose estimation approach by means of self-supervised learning, removing the need for real annotations. After training our proposed network fully supervised with synthetic RGB data, we leverage current trends in noisy student training and differentiable rendering to further self-supervise the model on these unsupervised real RGB(-D) samples, seeking for a visually and geometrically optimal alignment. Moreover, employing both visible and amodal mask information, our self-supervision becomes very robust towards challenging scenarios such as occlusion. Extensive evaluations demonstrate that our proposed self-supervision outperforms all other methods relying on synthetic data or employing elaborate techniques from the domain adaptation realm. Noteworthy, our self-supervised approach consistently improves over its synthetically trained baseline and often almost closes the gap towards its fully supervised counterpart. The code and models are publicly available at https://github.com/THU-DA-6D-Pose-Group/self6dpp.git.
updated: Sat Mar 19 2022 15:12:06 GMT+0000 (UTC)
published: Sat Mar 19 2022 15:12:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト