人間の姿勢の推定は、拡張現実やビデオキャプチャから監視や動きの追跡に至るまで、さまざまなアプリケーションでの主要なコンピュータビジョンの問題です。医学的文脈では、後者は乳児の神経障害の重要なバイオマーカーである可能性があります。多くの方法が存在しますが、それらのアプリケーションは、十分に注釈が付けられた大きなデータセットの必要性と、さまざまな形状や体組成の人間、たとえば子供や幼児に一般化できないことによって制限されています。この論文では、教師なしの方法で人間の成人と幼児のポーズ推定量を学習するための新しい方法を提示します。深い特徴抽出器によって促進される学習可能なテンプレートマッチング問題としてこれにアプローチします。人間が解釈できるランドマークは、2Dガウス分布によって特徴付けられる事前定義された身体部分で構成されるテンプレートを変換することによって推定されます。事前に接続を強制することで、モデルを意味のある人間の形状表現に導きます。成人と乳児を含む2つの異なるデータセットに対するアプローチの有効性を示します。
Human pose estimation is a major computer vision problem with applications ranging from augmented reality and video capture to surveillance and movement tracking. In the medical context, the latter may be an important biomarker for neurological impairments in infants. Whilst many methods exist, their application has been limited by the need for well annotated large datasets and the inability to generalize to humans of different shapes and body compositions, e.g. children and infants. In this paper we present a novel method for learning pose estimators for human adults and infants in an unsupervised fashion. We approach this as a learnable template matching problem facilitated by deep feature extractors. Human-interpretable landmarks are estimated by transforming a template consisting of predefined body parts that are characterized by 2D Gaussian distributions. Enforcing a connectivity prior guides our model to meaningful human shape representations. We demonstrate the effectiveness of our approach on two different datasets including adults and infants.