画像から3D人間のポーズを予測することは、最近大きな改善が見られました。単一の入力画像からポーズと形状の両方を予測することさえできる新しいアプローチが導入されており、多くの場合、SMPLなどの人体のパラメトリックモデルに依存しています。このような方法の定性的な結果は、実際にキャプチャされた画像で示されることがよくありますが、モーションキャプチャルーム以外の場所でグラウンドトゥルースの3Dポーズを取得するのは面倒であるため、このような条件での適切なベンチマークはまだありません。このホワイトペーパーでは、このようなデータセットを正確なグラウンドトゥルースで簡単に作成および検証するためのパイプラインを紹介します。このパイプラインを使用して、最近の3D人間の姿勢推定方法を実際にベンチマークします。最近導入されたマネキンチャレンジデータセットを利用します。このデータセットには、彫像のように動いている人々の野生のビデオが含まれており、人々が静止していてカメラが動いているという事実を利用して、シーケンスにSMPLモデルを正確に適合させます。次に、オンラインRGBビデオのみを使用して、登録されたボディモデルを含む合計24,428フレームが、ほぼ無料で567シーンから選択されます。このデータセットで、最先端のSMPLベースの人間の姿勢推定方法のベンチマークを行います。私たちの結果は、特に難しいポーズや、人が部分的に切り詰められたり遮られたりしているシーンでは、課題が残っていることを強調しています。
Predicting 3D human pose from images has seen great recent improvements. Novel approaches that can even predict both pose and shape from a single input image have been introduced, often relying on a parametric model of the human body such as SMPL. While qualitative results for such methods are often shown for images captured in-the-wild, a proper benchmark in such conditions is still missing, as it is cumbersome to obtain ground-truth 3D poses elsewhere than in a motion capture room. This paper presents a pipeline to easily produce and validate such a dataset with accurate ground-truth, with which we benchmark recent 3D human pose estimation methods in-the-wild. We make use of the recently introduced Mannequin Challenge dataset which contains in-the-wild videos of people frozen in action like statues and leverage the fact that people are static and the camera moving to accurately fit the SMPL model on the sequences. A total of 24,428 frames with registered body models are then selected from 567 scenes at almost no cost, using only online RGB videos. We benchmark state-of-the-art SMPL-based human pose estimation methods on this dataset. Our results highlight that challenges remain, in particular for difficult poses or for scenes where the persons are partially truncated or occluded.