1 つの画像から 3D の人体を認識する機能には、エンターテイメントやロボット工学から神経科学や医療に至るまで、さまざまな用途があります。ヒューマン メッシュの復元における基本的な課題は、トレーニングに必要なグラウンド トゥルース 3D メッシュ ターゲットを収集することです。これには負担のかかるモーション キャプチャ システムが必要であり、多くの場合、屋内の実験室に限定されます。その結果、これらの制限された設定で収集されたベンチマーク データセットで進歩が見られますが、分布の変化により、モデルは現実世界の「野生の」シナリオに一般化できません。実世界のシナリオでモデルの一般化能力を強化するデータ拡張方法である、ドメイン適応型 3D ポーズ拡張 (DAPA) を提案します。 DAPA は、合成されたメッシュから直接監視することによる合成データセットに基づく方法の強みと、ターゲット データセットからのグラウンド トゥルース 2D キーポイントを使用することによるドメイン適応方法を組み合わせます。 DAPA を使用した微調整により、ベンチマーク 3DPW および AGORA の結果が効果的に改善されることが定量的に示されています。さらに、実世界の親子の相互作用のビデオからキュレーションされた挑戦的なデータセットで DAPA の有用性を示します。
The ability to perceive 3D human bodies from a single image has a multitude of applications ranging from entertainment and robotics to neuroscience and healthcare. A fundamental challenge in human mesh recovery is in collecting the ground truth 3D mesh targets required for training, which requires burdensome motion capturing systems and is often limited to indoor laboratories. As a result, while progress is made on benchmark datasets collected in these restrictive settings, models fail to generalize to real-world "in-the-wild" scenarios due to distribution shifts. We propose Domain Adaptive 3D Pose Augmentation (DAPA), a data augmentation method that enhances the model's generalization ability in in-the-wild scenarios. DAPA combines the strength of methods based on synthetic datasets by getting direct supervision from the synthesized meshes, and domain adaptation methods by using ground truth 2D keypoints from the target dataset. We show quantitatively that finetuning with DAPA effectively improves results on benchmarks 3DPW and AGORA. We further demonstrate the utility of DAPA on a challenging dataset curated from videos of real-world parent-child interaction.