利用可能な3D人間のポーズ推定アプローチは、さまざまな形式の強い(2D / 3Dポーズ)または弱い(マルチビューまたは深度)ペアの監視を活用します。合成ドメインまたはスタジオ内ドメインを除いて、新しいターゲット環境ごとにそのような監視を取得することは非常に不便です。この目的のために、3Dポーズ学習を、ラベル付けされたソースドメインから完全にペアになっていないターゲットにタスクの知識を転送することを目的とした自己監視型の適応問題としてキャストします。 2つの明示的なマッピングを介して画像からポーズを推測することを提案します。 image-to-latentおよび潜在-to-pose。後者は、事前に実施された生成的敵対的自動エンコーダーから取得された事前学習済みデコーダーです。次に、ペアになっていないクロスモーダルサンプル、つまりペアになっていないターゲットビデオとペアになっていない3Dポーズシーケンスを整列させる手段として、リレーション蒸留を紹介します。この目的のために、正の結合が局所的な近隣構造に限定される一般的な対照的な関係とは異なり、長距離の潜在的なポーズの相互作用を特徴づけるために、新しい非局所的な関係のセットを提案します。さらに、最も効果的な関係セットを選択するために、非局所性を定量化する客観的な方法を提供します。さまざまな自己適応設定を評価し、標準的なベンチマークで最先端の3D人間のポーズ推定パフォーマンスを示します。
Available 3D human pose estimation approaches leverage different forms of strong (2D/3D pose) or weak (multi-view or depth) paired supervision. Barring synthetic or in-studio domains, acquiring such supervision for each new target environment is highly inconvenient. To this end, we cast 3D pose learning as a self-supervised adaptation problem that aims to transfer the task knowledge from a labeled source domain to a completely unpaired target. We propose to infer image-to-pose via two explicit mappings viz. image-to-latent and latent-to-pose where the latter is a pre-learned decoder obtained from a prior-enforcing generative adversarial auto-encoder. Next, we introduce relation distillation as a means to align the unpaired cross-modal samples i.e. the unpaired target videos and unpaired 3D pose sequences. To this end, we propose a new set of non-local relations in order to characterize long-range latent pose interactions unlike general contrastive relations where positive couplings are limited to a local neighborhood structure. Further, we provide an objective way to quantify non-localness in order to select the most effective relation set. We evaluate different self-adaptation settings and demonstrate state-of-the-art 3D human pose estimation performance on standard benchmarks.