体格指数 (BMI)、年齢、身長、体重は、人間の健康状態の重要な指標であり、ヘルスケア、モニタリング、再識別など、多くの実用的な目的に役立つ情報を提供できます。健康指標予測の既存の方法のほとんどは、主に正面から見た身体または顔の画像を使用します。これらの入力は日常生活で取得するのが難しく、ビューとポーズに関する厳しい要件を考慮すると、モデルの堅牢性の欠如につながることがよくあります。このホワイト ペーパーでは、歩行ビデオを使用して健康指標を予測することを提案します。これは、監視や家庭での監視シナリオでより一般的です。しかし、ディープラーニングを使用した歩行ビデオからの健康指標予測の研究は、オープンソースのデータが少ないために妨げられていました。この問題に対処するために、姿勢推定タスクと健康指標予測タスクの間の類似性と関係を分析し、姿勢推定タスクの事前トレーニングによって小さな健康指標データセットのディープ ラーニングを可能にするパラダイムを提案します。さらに、ヘルス インジケーターの予測タスクにより適したものにするために、Global-Local Aware aNd Centrosymmetric Encoder (GLANCE) モジュールを導入しました。最初にプログレッシブ畳み込みによってローカルおよびグローバルの特徴を抽出し、次に 2 つの異なる方法で中心対称ダブルパス砂時計構造によってマルチレベルの特徴を融合します。実験は、提案されたパラダイムが MoVi の健康指標を予測するための最先端の結果を達成すること、および GLANCE モジュールが 3DPW の姿勢推定にも有益であることを示しています。
Body Mass Index (BMI), age, height and weight are important indicators of human health conditions, which can provide useful information for plenty of practical purposes, such as health care, monitoring and re-identification. Most existing methods of health indicator prediction mainly use front-view body or face images. These inputs are hard to be obtained in daily life and often lead to the lack of robustness for the models, considering their strict requirements on view and pose. In this paper, we propose to employ gait videos to predict health indicators, which are more prevalent in surveillance and home monitoring scenarios. However, the study of health indicator prediction from gait videos using deep learning was hindered due to the small amount of open-sourced data. To address this issue, we analyse the similarity and relationship between pose estimation and health indicator prediction tasks, and then propose a paradigm enabling deep learning for small health indicator datasets by pre-training on the pose estimation task. Furthermore, to better suit the health indicator prediction task, we bring forward Global-Local Aware aNd Centrosymmetric Encoder (GLANCE) module. It first extracts local and global features by progressive convolutions and then fuses multi-level features by a centrosymmetric double-path hourglass structure in two different ways. Experiments demonstrate that the proposed paradigm achieves state-of-the-art results for predicting health indicators on MoVi, and that the GLANCE module is also beneficial for pose estimation on 3DPW.