3D のポーズと形状を正確に推定することは、動物の行動を理解するための重要なステップであり、野生動物の保護など、多くの下流アプリケーションに潜在的に利益をもたらす可能性があります。ただし、高品質の 3D ポーズと形状の注釈を備えた包括的で多様なデータセットが不足しているため、この分野の研究は進んでいません。この論文では、哺乳動物の 3D 姿勢と形状推定のための最初の包括的なデータセットである Animal3D を提案します。 Animal3D は、40 種の哺乳類から収集された 3379 枚の画像、26 のキーポイントの高品質の注釈、そして重要な SMAL モデルのポーズと形状のパラメーターで構成されています。すべての注釈はラベル付けされ、複数段階のプロセスで手動でチェックされ、最高品質の結果が保証されます。 Animal3D データセットに基づいて、(1) Animal3D データのみからの教師あり学習、(2) 合成的に生成された画像からの合成画像から実際の画像への変換、および (3) 人間の姿勢と形状の微調整で、代表的な形状と姿勢の推定モデルをベンチマークします。推定モデル。私たちの実験結果は、人間の姿勢推定が大幅に進歩したにもかかわらず、種を超えて動物の 3D 形状と姿勢を予測することは依然として非常に困難な作業であることを示しています。私たちの結果はさらに、合成事前トレーニングがモデルのパフォーマンスを向上させるための実行可能な戦略であることを示しています。全体として、Animal3D は動物の 3D 姿勢と形状推定における将来の研究を促進するための新しい方向性を切り開き、一般に公開されています。
Accurately estimating the 3D pose and shape is an essential step towards understanding animal behavior, and can potentially benefit many downstream applications, such as wildlife conservation. However, research in this area is held back by the lack of a comprehensive and diverse dataset with high-quality 3D pose and shape annotations. In this paper, we propose Animal3D, the first comprehensive dataset for mammal animal 3D pose and shape estimation. Animal3D consists of 3379 images collected from 40 mammal species, high-quality annotations of 26 keypoints, and importantly the pose and shape parameters of the SMAL model. All annotations were labeled and checked manually in a multi-stage process to ensure highest quality results. Based on the Animal3D dataset, we benchmark representative shape and pose estimation models at: (1) supervised learning from only the Animal3D data, (2) synthetic to real transfer from synthetically generated images, and (3) fine-tuning human pose and shape estimation models. Our experimental results demonstrate that predicting the 3D shape and pose of animals across species remains a very challenging task, despite significant advances in human pose estimation. Our results further demonstrate that synthetic pre-training is a viable strategy to boost the model performance. Overall, Animal3D opens new directions for facilitating future research in animal 3D pose and shape estimation, and is publicly available.