人体によって加えられる地面の圧力は、目立たないパーベイシブ センシングにおける人間活動認識 (HAR) の貴重な情報源です。圧力センサーからデータを収集して HAR ソリューションを開発するには、多大なリソースと労力が必要ですが、人間の活動のビデオからセンサー データを合成してそのような労力を大幅に削減するための新しいエンド ツー エンド フレームワーク、PresSim を紹介します。 PresSim は 3 段階のプロセスを採用しています。まず、コンピューター ビジョン アーキテクチャを使用してビデオから 3D アクティビティ情報を抽出します。次に、3D アクティビティ情報と重力を含む物理シミュレーションに基づいて、フロア メッシュの変形プロファイルをシミュレートします。最後に、深層学習モデルを使用してシミュレートされた圧力センサー データを生成します。 3D アクティビティ情報については、メッシュの再ターゲットを伴う逆運動学と、ボリューム ポーズおよび形状推定の 2 つのアプローチを検討しました。入力を提供するための単眼カメラとセンサーのグラウンド トゥルースを提供するための圧力感知フィットネス マット (80x28 空間解像度) を備えた実験セットアップで PresSim を検証しました。
Ground pressure exerted by the human body is a valuable source of information for human activity recognition (HAR) in unobtrusive pervasive sensing. While data collection from pressure sensors to develop HAR solutions requires significant resources and effort, we present a novel end-to-end framework, PresSim, to synthesize sensor data from videos of human activities to reduce such effort significantly. PresSim adopts a 3-stage process: first, extract the 3D activity information from videos with computer vision architectures; then simulate the floor mesh deformation profiles based on the 3D activity information and gravity-included physics simulation; lastly, generate the simulated pressure sensor data with deep learning models. We explored two approaches for the 3D activity information: inverse kinematics with mesh re-targeting, and volumetric pose and shape estimation. We validated PresSim with an experimental setup with a monocular camera to provide input and a pressure-sensing fitness mat (80x28 spatial resolution) to provide the sensor ground truth, where nine participants performed a set of predefined yoga sequences.