最近、ベッド内での人間の姿勢推定は、幅広いヘルスケアアプリケーションに関連しているため、研究者の関心を集めています。人間のポーズ推定の一般的な問題と比較して、ベッド内のポーズ推定にはいくつかの固有の課題があり、最も顕著なのは寝具によって引き起こされる頻繁で重度の閉塞です。この論文では、2つの設定でのベッド内ポーズ推定のタスクのために、深度、長波赤外線(LWIR)、圧力マップなど、複数の非視覚的でプライバシーを保護するモダリティからの画像の効果的な使用について説明します。まず、より良いポーズ推定のために、さまざまなイメージングモダリティからの情報の効果的な融合を探ります。次に、可視画像が利用できない場合にベッド内のポーズ推定を推定できるフレームワークを提案し、LWIR画像のみが利用可能なシナリオへの融合法の適用性を示します。複数のモダリティからの機能の融合の効果を分析し、実証します。この目的のために、4つの異なる手法を検討します。1)加算、2)連結、3)学習したモーダル重みによる融合、4)エンドツーエンドの完全にトレーニング可能なアプローチ。最先端のポーズ推定モデルを使用します。また、ベッド内の人間の姿勢推定のために、データが不足しているプライバシー保護モダリティ(つまり、長波長赤外線)からデータが豊富なモダリティ(つまり、可視モダリティ)を再構築する効果を評価します。再構築には、条件付き生成敵対的ネットワークを使用します。私たちは、フレームワークのさまざまな設計上の決定にわたって奪格研究を実施します。これには、さまざまなレベルの粒度の機能の選択、さまざまな融合手法の使用、さまざまなモデルパラメータが含まれます。広範な評価を通じて、私たちの方法が最先端のものと比較して同等以上の結果を生み出すことを実証します。
Recently, in-bed human pose estimation has attracted the interest of researchers due to its relevance to a wide range of healthcare applications. Compared to the general problem of human pose estimation, in-bed pose estimation has several inherent challenges, the most prominent being frequent and severe occlusions caused by bedding. In this paper we explore the effective use of images from multiple non-visual and privacy-preserving modalities such as depth, long-wave infrared (LWIR) and pressure maps for the task of in-bed pose estimation in two settings. First, we explore the effective fusion of information from different imaging modalities for better pose estimation. Secondly, we propose a framework that can estimate in-bed pose estimation when visible images are unavailable, and demonstrate the applicability of fusion methods to scenarios where only LWIR images are available. We analyze and demonstrate the effect of fusing features from multiple modalities. For this purpose, we consider four different techniques: 1) Addition, 2) Concatenation, 3) Fusion via learned modal weights, and 4) End-to-end fully trainable approach; with a state-of-the-art pose estimation model. We also evaluate the effect of reconstructing a data-rich modality (i.e., visible modality) from a privacy-preserving modality with data scarcity (i.e., long-wavelength infrared) for in-bed human pose estimation. For reconstruction, we use a conditional generative adversarial network. We conduct ablative studies across different design decisions of our framework. This includes selecting features with different levels of granularity, using different fusion techniques, and varying model parameters. Through extensive evaluations, we demonstrate that our method produces on par or better results compared to the state-of-the-art.