人々の行動と相互作用を理解することは、通常、それらを見ることにかかっています。視覚データからアクション認識のプロセスを自動化することは、コンピュータービジョンコミュニティの多くの研究のトピックでした。しかし、暗すぎたり、人がふさがったり壁の後ろにいる場合はどうでしょうか?この論文では、壁や閉塞を介して、また照明条件が悪いときに人間の行動を検出できるニューラルネットワークモデルを紹介します。このモデルは、無線周波数(RF)信号を入力として受け取り、3Dの人間の骨格を中間表現として生成し、時間の経過に伴う複数の人々の行動と相互作用を認識します。入力を中間のスケルトンベースの表現に変換することにより、モデルはビジョンベースとRFベースの両方のデータセットから学習し、2つのタスクが互いに助け合うことができます。私たちのモデルは、目に見えるシナリオで視覚ベースのアクション認識システムに匹敵する精度を達成しますが、人が見えないときに正確に動作し続けるため、今日の視覚ベースのアクション認識の限界を超えるシナリオに対処します。
Understanding people's actions and interactions typically depends on seeing them. Automating the process of action recognition from visual data has been the topic of much research in the computer vision community. But what if it is too dark, or if the person is occluded or behind a wall? In this paper, we introduce a neural network model that can detect human actions through walls and occlusions, and in poor lighting conditions. Our model takes radio frequency (RF) signals as input, generates 3D human skeletons as an intermediate representation, and recognizes actions and interactions of multiple people over time. By translating the input to an intermediate skeleton-based representation, our model can learn from both vision-based and RF-based datasets, and allow the two tasks to help each other. We show that our model achieves comparable accuracy to vision-based action recognition systems in visible scenarios, yet continues to work accurately when people are not visible, hence addressing scenarios that are beyond the limit of today's vision-based action recognition.