arXiv reaDer
MSDA: 6D オブジェクト姿勢推定のための単眼自己教師付きドメイン適応
MSDA: Monocular Self-supervised Domain Adaptation for 6D Object Pose Estimation
実際の画像からラベル付きの 6D ポーズを取得するのは、費用と時間がかかる作業です。大量の合成 RGB 画像は簡単に取得できますが、それらでトレーニングされたモデルは、合成ドメインと実際のドメインのギャップにより、パフォーマンスが著しく低下します。この劣化を軽減するために、実際のポーズ ラベルを必要とせずに実際の RGB(-D) データを利用する実用的な自己教師ありドメイン適応アプローチを提案します。最初に合成 RGB 画像を使用してモデルを事前トレーニングし、次に実際の RGB(-D) 画像を使用して事前トレーニング済みモデルを微調整します。微調整プロセスは、RGB ベースのポーズ認識一貫性と、時間のかかるオンライン微分可能レンダリングを必要としない、深度ガイド付きオブジェクト距離疑似ラベルによって自己管理されます。最近のポーズ推定器SC6Dに基づいてドメイン適応法を構築し、YCB-Videoデータセットで評価します。私たちの方法が、既存の最先端のアプローチよりも優れている一方で、完全に監視された方法と同等のパフォーマンスを達成することを実験的に示しています。
Acquiring labeled 6D poses from real images is an expensive and time-consuming task. Though massive amounts of synthetic RGB images are easy to obtain, the models trained on them suffer from noticeable performance degradation due to the synthetic-to-real domain gap. To mitigate this degradation, we propose a practical self-supervised domain adaptation approach that takes advantage of real RGB(-D) data without needing real pose labels. We first pre-train the model with synthetic RGB images and then utilize real RGB(-D) images to fine-tune the pre-trained model. The fine-tuning process is self-supervised by the RGB-based pose-aware consistency and the depth-guided object distance pseudo-label, which does not require the time-consuming online differentiable rendering. We build our domain adaptation method based on the recent pose estimator SC6D and evaluate it on the YCB-Video dataset. We experimentally demonstrate that our method achieves comparable performance against its fully-supervised counterpart while outperforming existing state-of-the-art approaches.
updated: Tue Feb 14 2023 19:34:41 GMT+0000 (UTC)
published: Tue Feb 14 2023 19:34:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト