単眼3D人間ポーズ推定の進歩は、大規模な2D/3Dポーズ注釈を必要とする教師あり手法によって支配されています。このような方法は、見慣れない配布外データを破棄するための規定がない場合、不規則に動作することがよくあります。この目的のために、教師なしドメイン適応問題として3D人間ポーズ学習をキャストします。 2つの異なる構成にサブスクライブする2つの出力ヘッドを備えた共通のディープネットワークバックボーンを構成するMRP-Netを紹介します。 a)モデルフリーのジョイントローカリゼーションおよびb)モデルベースのパラメトリック回帰。このような設計により、ポーズレベルと関節レベルの両方の粒度で予測の不確実性を定量化するための適切な測定値を導き出すことができます。ラベル付けされた合成サンプルのみを監視する一方で、適応プロセスは、ラベル付けされていないターゲット画像の不確実性を最小限に抑え、極端な分布外データセット(背景)の不確実性を最大化することを目的としています。合成から実際への3Dポーズの適応に加えて、ジョイントの不確実性により、オクルージョンとトランケーションのシナリオが存在する場合でも、適応を拡張して野生の画像で機能することができます。提案されたアプローチの包括的な評価を提示し、ベンチマークデータセットの最先端のパフォーマンスを示します。
The advances in monocular 3D human pose estimation are dominated by supervised techniques that require large-scale 2D/3D pose annotations. Such methods often behave erratically in the absence of any provision to discard unfamiliar out-of-distribution data. To this end, we cast the 3D human pose learning as an unsupervised domain adaptation problem. We introduce MRP-Net that constitutes a common deep network backbone with two output heads subscribing to two diverse configurations; a) model-free joint localization and b) model-based parametric regression. Such a design allows us to derive suitable measures to quantify prediction uncertainty at both pose and joint level granularity. While supervising only on labeled synthetic samples, the adaptation process aims to minimize the uncertainty for the unlabeled target images while maximizing the same for an extreme out-of-distribution dataset (backgrounds). Alongside synthetic-to-real 3D pose adaptation, the joint-uncertainties allow expanding the adaptation to work on in-the-wild images even in the presence of occlusion and truncation scenarios. We present a comprehensive evaluation of the proposed approach and demonstrate state-of-the-art performance on benchmark datasets.