人間のベッドでの姿勢推定は、医療およびヘルスケアアプリケーションで非常に実用的な価値を持ちますが、それでも主に高価な圧力マッピング(PM)ソリューションに依存しています。この論文では、完全な暗闇の中で完全に覆われた人物を監視することを含む、ベッド内の姿勢推定問題に関連する困難な問題に対処する、物理学にヒントを得たビジョンベースのアプローチを紹介します。長波長IR技術を使用して完全に覆われている場合でも、提案された熱拡散によるアンダーイメージング(UCITD)メソッドを使用してこの問題を再定式化し、身体の高解像度のポーズ情報をキャプチャしました。さまざまなモダリティで高品質のグラウンドトゥルースポーズラベルを実現する物理ハイパーパラメーターの概念を提案しました。同時収集マルチモーダル横たわりポーズ(SLP)と呼ばれる完全に注釈付きのベッド内ポーズデータセットも、ほとんどの既存の大規模な人間のポーズデータセットと同じ規模で形成/リリースされ、複雑なモデルのトレーニングと評価をサポートします。ネットワークを最初からトレーニングし、リビングルームと病室の2つの異なる設定でテストしたネットワークは、PCK0.2標準でそれぞれ99.5%と95.7%のポーズ推定パフォーマンスを示しました。さらに、PMに基づく最新のベッド内姿勢監視ソリューションとの多要素比較では、当社のソリューションは、60倍安く、300倍小さく、より高い姿勢認識を備えているため、すべての実用的な面で顕著な優位性を示しました粒度と精度。
Human in-bed pose estimation has huge practical values in medical and healthcare applications yet still mainly relies on expensive pressure mapping (PM) solutions. In this paper, we introduce our novel physics inspired vision-based approach that addresses the challenging issues associated with the in-bed pose estimation problem including monitoring a fully covered person in complete darkness. We reformulated this problem using our proposed Under the Cover Imaging via Thermal Diffusion (UCITD) method to capture the high resolution pose information of the body even when it is fully covered by using a long wavelength IR technique. We proposed a physical hyperparameter concept through which we achieved high quality groundtruth pose labels in different modalities. A fully annotated in-bed pose dataset called Simultaneously-collected multimodal Lying Pose (SLP) is also formed/released with the same order of magnitude as most existing large-scale human pose datasets to support complex models' training and evaluation. A network trained from scratch on it and tested on two diverse settings, one in a living room and the other in a hospital room showed pose estimation performance of 99.5% and 95.7% in PCK0.2 standard, respectively. Moreover, in a multi-factor comparison with a state-of-the art in-bed pose monitoring solution based on PM, our solution showed significant superiority in all practical aspects by being 60 times cheaper, 300 times smaller, while having higher pose recognition granularity and accuracy.