この論文では、視覚回帰(6D 姿勢推定など)における合成データと実際のデータの間のドメイン ギャップを、ターゲット空間内の離散化されたアンカー クラスの粗分類に対するグローバルな特徴アラインメントとローカル リファインメントによって橋渡しします。これにより、区分的なターゲット多様体正則化が課されます。ドメイン不変表現学習。具体的には、私たちの方法は、自己訓練スキーム(たとえば、人気のある自己ペース自己訓練)に明示的な自己教師あり多様体正則化を組み込み、ドメイン全体にわたる一貫した累積ターゲット依存関係を明らかにし、回帰タスクのより識別的な転送可能な表現を促進します。さらに、統合された陰的ニューラル関数を学習して、ターゲットの最も近いクラス ビンまでの相対的な方向と距離を推定することは、ターゲット分類予測を改良することを目的としており、これにより、UDA リグレッサーの影響を受けやすい一貫性のない特徴スケーリングに対して堅牢なパフォーマンスを得ることができます。困難な 6D 姿勢推定タスクの 3 つの公開ベンチマークでの実験結果により、私たちの手法の有効性が検証され、6D 姿勢推定において UDA の最先端技術を上回る優れたパフォーマンスを一貫して達成できます。
Domain gap between synthetic and real data in visual regression (e.g. 6D pose estimation) is bridged in this paper via global feature alignment and local refinement on the coarse classification of discretized anchor classes in target space, which imposes a piece-wise target manifold regularization into domain-invariant representation learning. Specifically, our method incorporates an explicit self-supervised manifold regularization, revealing consistent cumulative target dependency across domains, to a self-training scheme (e.g. the popular Self-Paced Self-Training) to encourage more discriminative transferable representations of regression tasks. Moreover, learning unified implicit neural functions to estimate relative direction and distance of targets to their nearest class bins aims to refine target classification predictions, which can gain robust performance against inconsistent feature scaling sensitive to UDA regressors. Experiment results on three public benchmarks of the challenging 6D pose estimation task can verify the effectiveness of our method, consistently achieving superior performance to the state-of-the-art for UDA on 6D pose estimation.