深層学習ベースの 3D 人間の姿勢推定は、ラベル付けされた大量のデータでトレーニングした場合に最適に機能するため、多くのデータセットからの学習を組み合わせることは重要な研究の方向性になります。この取り組みの障害の 1 つは、異なるデータセットによって提供される異なるスケルトン フォーマットです。つまり、同じセットの解剖学的ランドマークにラベルを付けていません。このような矛盾したラベルを持つ 1 つのモデルを最適に監視する方法については、先行研究はほとんどありません。異なるスケルトンに別々の出力ヘッドを使用するだけでは、深さの推定に一貫性がなくなり、スケルトン間で情報共有が不十分になることを示しています。解決策として、ランドマークの数に対して次元削減を実行するための新しいアフィン結合オートエンコーダー (ACAE) メソッドを提案します。発見された潜在的な 3D ポイントは、スケルトン間の冗長性をキャプチャし、一貫性の正則化に使用すると、情報共有を強化できます。私たちのアプローチは、極端なマルチ データセット体制にスケーリングします。そこでは、28 の 3D 人間ポーズ データセットを使用して 1 つのモデルを監視します。これは、挑戦的な 3D Poses in the Wild (3DPW) データセットを含む、さまざまなベンチマークでの以前の作業よりも優れています。私たちのコードとモデルは、研究目的で利用できます。
Deep learning-based 3D human pose estimation performs best when trained on large amounts of labeled data, making combined learning from many datasets an important research direction. One obstacle to this endeavor are the different skeleton formats provided by different datasets, i.e., they do not label the same set of anatomical landmarks. There is little prior research on how to best supervise one model with such discrepant labels. We show that simply using separate output heads for different skeletons results in inconsistent depth estimates and insufficient information sharing across skeletons. As a remedy, we propose a novel affine-combining autoencoder (ACAE) method to perform dimensionality reduction on the number of landmarks. The discovered latent 3D points capture the redundancy among skeletons, enabling enhanced information sharing when used for consistency regularization. Our approach scales to an extreme multi-dataset regime, where we use 28 3D human pose datasets to supervise one model, which outperforms prior work on a range of benchmarks, including the challenging 3D Poses in the Wild (3DPW) dataset. Our code and models are available for research purposes.