Heuristic Weakly Supervised 3D Human Pose Estimation in Novel Contexts without Any 3D Pose Ground Truth
単一のRGB画像からの単眼3D人間の姿勢推定は、過去数年間で多くの注目を集めています。ただし、競争力のあるパフォーマンスを備えたポーズ推論モデルでは、3Dポーズグラウンドトゥルースデータまたは少なくともターゲットドメイン内の既知のポーズ事前確率による監視が必要です。ただし、データ収集の制約がある多くの実際のアプリケーションでは、これらのデータ要件を達成できない場合があります。この論文では、HW-HuPと呼ばれるヒューリスティックな弱教師ありソリューションを提示し、微調整を行っても、グラウンドトゥルース3Dデータにアクセスできない状況で3D人間の姿勢を推定します。 HW-HuPは、公開されている3D人間のポーズのデータセットから部分的なポーズの事前情報を学習し、ターゲットドメインからのアクセスしやすい観測を使用して、最適化と回帰のハイブリッドサイクルで3Dの人間のポーズと形状を繰り返し推定します。私たちの設計では、補助情報としての深度データがトレーニング中の弱い監視として使用されますが、推論には必要ありません。ベッド内の人間と幼児の両方のポーズのデータセットでHW-HuPのパフォーマンスを定性的に評価します。ここでは、グラウンドトゥルースの3Dポーズが提供されておらず、ターゲットも事前に提供されていません。また、3Dグラウンドトゥルースに対して公開されているモーションキャプチャデータセットでHW-HuPのパフォーマンスを定量的にテストします。 HW-HuPは、特に閉塞や完全な暗闇などの不利な視力条件下での姿勢推定タスクのために、他の入力モダリティに拡張することもできます。 Human3.6Mベンチマークでは、HW-HuPはMPJPEで104.1mm、PA MPJPEで50.4mmを示しています。これは、完全な3Dポーズ監視の恩恵を受ける既存の最先端のアプローチに匹敵します。
Monocular 3D human pose estimation from a single RGB image has received a lot attentions in the past few year. Pose inference models with competitive performance however require supervision with 3D pose ground truth data or at least known pose priors in their target domain. Yet, these data requirements in many real-world applications with data collection constraints may not be achievable. In this paper, we present a heuristic weakly supervised solution, called HW-HuP to estimate 3D human pose in contexts that no ground truth 3D data is accessible, even for fine-tuning. HW-HuP learns partial pose priors from public 3D human pose datasets and uses easy-to-access observations from the target domain to iteratively estimate 3D human pose and shape in an optimization and regression hybrid cycle. In our design, depth data as an auxiliary information is employed as weak supervision during training, yet it is not needed for the inference. We evaluate HW-HuP performance qualitatively on datasets of both in-bed human and infant poses, where no ground truth 3D pose is provided neither any target prior. We also test HW-HuP performance quantitatively on a publicly available motion capture dataset against the 3D ground truth. HW-HuP is also able to be extended to other input modalities for pose estimation tasks especially under adverse vision conditions, such as occlusion or full darkness. On the Human3.6M benchmark, HW-HuP shows 104.1mm in MPJPE and 50.4mm in PA MPJPE, comparable to the existing state-of-the-art approaches that benefit from full 3D pose supervision.
updated: Sun May 23 2021 18:40:29 GMT+0000 (UTC)
published: Sun May 23 2021 18:40:29 GMT+0000 (UTC)
