arXiv reaDer
小さなデータを用いた幼児の姿勢推定のための不変表現学習
Invariant Representation Learning for Infant Pose Estimation with Small Data
人間の姿勢推定領域の成熟度が増すにつれて、そのアプリケーションはますます広くなっています。それでも、最先端のポーズ推定モデルのパフォーマンスは、独自の動きを持つ乳児など、新しい被写体やポーズを含むアプリケーションでは大幅に低下します。乳児の運動分析は、初期の発達研究において非常に重要なトピックです。ただし、大規模な成人のポーズデータセットでトレーニングされたモデルは、体の比率と成人と比較して取ることができるポーズの多様性に大きな違いがあるため、乳児のポーズの推定にはほとんど成功していません。さらに、プライバシーとセキュリティの考慮事項により、堅牢なポーズ推論モデルを最初からトレーニングするために必要な適切な幼児画像を利用できなくなります。ここでは、成人のポーズと合成幼児モデルの隣接するドメインからの知識を組み込むことにより、限られた利用可能な実際の幼児のポーズデータを補強することを可能にする不変表現学習戦略を提示します。これらの知識を微調整されたドメイン適応幼児ポーズ(FiDIP)推定モデルに徐々に移行するための多段階トレーニング戦略を紹介します。 FiDIPの開発では、小さいながらも多様な実際の乳児画像と生成された合成乳児データを使用して、合成および実際の乳児ポーズ(SyRIP)データセットを構築して公開しました。私たちのFiDIPモデルは、乳児の姿勢推定のための最先端の人間の姿勢推定モデルよりも優れており、平均精度(AP)は90.1と高いことを実証しました。
With the increasing maturity of the human pose estimation domain, its applications have become more and more broaden. Yet, the state-of-the-art pose estimation models performance degrades significantly in the applications that include novel subjects or poses, such as infants with their unique movements. Infant motion analysis is a topic with critical importance in early developmental studies. However, models trained on large-scale adult pose datasets are barely successful in estimating infant poses due to the significant differences in their body ratio and the versatility of poses they can take compared to adults. Moreover, the privacy and security considerations hinder the availability of adequate infant images required for training of a robust pose inference model from scratch. Here, we present an invariant representation learning strategy that allows us to augment the limited available real infant pose data by incorporating the knowledge from the adjacent domains of adult poses as well as synthetic infant models. We introduce a multi-stage training strategy to gradually transfer these knowledge into our fine-tuned domain-adapted infant pose (FiDIP) estimation model. In developing FiDIP, we also built and publicly released a synthetic and real infant pose (SyRIP) dataset with small yet diverse real infant images as well as generated synthetic infant data. We demonstrated that our FiDIP model outperforms state-of-the-art human pose estimation model for the infant pose estimation, with the mean average precision (AP) as high as 90.1.
updated: Tue Dec 01 2020 01:29:16 GMT+0000 (UTC)
published: Tue Oct 13 2020 01:10:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト