以前の研究では、IMUTube などのクロスモダリティ転送アプローチを使用してビデオから抽出された仮想加速度計データが、複雑で効果的な人間活動認識 (HAR) モデルのトレーニングに役立つことが実証されています。 IMUTube のようなシステムは、本来、実質的な身体 (部分) の動きに基づく活動をカバーするように設計されています。しかし、生命は複雑であり、日常生活のさまざまな活動はかなり微妙な動きに基づいているだけです。このことから、IMUTube のようなシステムが、きめ細かな HAR に対してもどの程度の価値があるかという疑問が生じます。つまり、IMUTube はいつ壊れますか?この作業では、最初に、関心のある活動の根底にある人間の動きの機微を定量的に評価するための尺度を導入します-モーション機微指数(MSI)-ターゲット仮想センサー位置の近くでローカルピクセルの動きとポーズの変化をキャプチャします。そしてそれを最終的な活動認識精度に関連付けます。次に、IMUTube で「ストレステスト」を実行し、根底にある微妙な動きを伴うどの活動に対してクロスモダリティ転送アプローチが機能し、どの活動が機能しないかを調べます。そのため、このホワイト ペーパーで提示された作業により、実際のシナリオでの IMUTube アプリケーションのランドスケープを計画することができます。
Previous work has demonstrated that virtual accelerometry data, extracted from videos using cross-modality transfer approaches like IMUTube, is beneficial for training complex and effective human activity recognition (HAR) models. Systems like IMUTube were originally designed to cover activities that are based on substantial body (part) movements. Yet, life is complex, and a range of activities of daily living is based on only rather subtle movements, which bears the question to what extent systems like IMUTube are of value also for fine-grained HAR, i.e., When does IMUTube break? In this work we first introduce a measure to quantitatively assess the subtlety of human movements that are underlying activities of interest--the motion subtlety index (MSI)--which captures local pixel movements and pose changes in the vicinity of target virtual sensor locations, and correlate it to the eventual activity recognition accuracy. We then perform a "stress-test" on IMUTube and explore for which activities with underlying subtle movements a cross-modality transfer approach works, and for which not. As such, the work presented in this paper allows us to map out the landscape for IMUTube applications in practical scenarios.