推論モデルの最終的な目標は、実際のアプリケーションで堅牢かつ機能的になることです。ただし、トレーニングとテストデータドメインのギャップは、モデルのパフォーマンスに悪影響を与えることがよくあります。この問題は、単眼の3D人間の姿勢推定の問題にとって特に重要です。この問題では、3D人間のデータが制御されたラボ環境で収集されることがよくあります。この論文では、外観とポーズ空間の両方での適応問題に対処する適応人間ポーズ(AHuP)アプローチを提示することにより、ドメインシフトの悪影響を軽減することに焦点を当てます。 AHuPは、実際のアプリケーションでは、ターゲットドメインからのデータにアクセスできないか、限られた情報しか取得できないという実際的な仮定に基づいて構築されています。 2つのシナリオでAHuPの3Dポーズ推定パフォーマンスを説明します。まず、ソースデータとターゲットデータが外観とポーズ空間の両方で大幅に異なる場合、合成3D人間データ(実際の3D人間データはゼロ)から学習し、最先端の3Dポーズ推定モデルと同等のパフォーマンスを示しますトレーニング用の実際の3D人間ポーズベンチマークに完全にアクセスできます。次に、ソースデータセットとターゲットデータセットが主にポーズ空間で異なる場合、トレーニングデータセットとは異なるデータセットでテストしたときに、AHuPアプローチを適用して最先端のモデルのパフォーマンスをさらに向上させることができます。
The ultimate goal for an inference model is to be robust and functional in real life applications. However, training vs. test data domain gaps often negatively affect model performance. This issue is especially critical for the monocular 3D human pose estimation problem, in which 3D human data is often collected in a controlled lab setting. In this paper, we focus on alleviating the negative effect of domain shift by presenting our adapted human pose (AHuP) approach that addresses adaptation problems in both appearance and pose spaces. AHuP is built around a practical assumption that in real applications, data from target domain could be inaccessible or only limited information can be acquired. We illustrate the 3D pose estimation performance of AHuP in two scenarios. First, when source and target data differ significantly in both appearance and pose spaces, in which we learn from synthetic 3D human data (with zero real 3D human data) and show comparable performance with the state-of-the-art 3D pose estimation models that have full access to the real 3D human pose benchmarks for training. Second, when source and target datasets differ mainly in the pose space, in which AHuP approach can be applied to further improve the performance of the state-of-the-art models when tested on the datasets different from their training dataset.