ミリ波(mmWave)信号を使用した人間のジェスチャー認識は、スマートホームや車載インターフェイスなどの魅力的なアプリケーションを提供します。既存の作業は制御された設定で有望なパフォーマンスを達成しますが、集中的なデータ収集の必要性、新しいドメイン(つまり、環境、人、場所)に適応する際の追加のトレーニング作業、およびリアルタイム認識のパフォーマンスの低下により、実際のアプリケーションは依然として制限されます。この論文では、ドメインに依存しないリアルタイムのミリ波ジェスチャ認識システムであるDI-Gestureを提案します。具体的には、まず、時空間処理による人間のジェスチャーに対応する信号変動を導き出します。システムの堅牢性を高め、データ収集の労力を軽減するために、信号パターンとジェスチャの変化の相関関係に基づいてデータ拡張フレームワークを設計します。さらに、ジェスチャのセグメンテーションを自動的かつ正確に実行し、リアルタイムの認識を可能にする動的ウィンドウメカニズムを提案します。最後に、ジェスチャ分類のためにデータから時空間情報を抽出する軽量ニューラルネットワークを構築します。広範な実験結果は、DI-Gestureが新しいユーザー、環境、場所でそれぞれ97.92%、99.18%、98.76%の平均精度を達成していることを示しています。リアルタイムシナリオでは、DI-Gesutreの精度は97%を超え、平均推論時間は2.87msです。これは、システムの優れた堅牢性と有効性を示しています。
Human gesture recognition using millimeter wave (mmWave) signals provides attractive applications including smart home and in-car interface. While existing works achieve promising performance under controlled settings, practical applications are still limited due to the need of intensive data collection, extra training efforts when adapting to new domains (i.e. environments, persons and locations) and poor performance for real-time recognition. In this paper, we propose DI-Gesture, a domain-independent and real-time mmWave gesture recognition system. Specifically, we first derive the signal variation corresponding to human gestures with spatial-temporal processing. To enhance the robustness of the system and reduce data collecting efforts, we design a data augmentation framework based on the correlation between signal patterns and gesture variations. Furthermore, we propose a dynamic window mechanism to perform gesture segmentation automatically and accurately, thus enable real-time recognition. Finally, we build a lightweight neural network to extract spatial-temporal information from the data for gesture classification. Extensive experimental results show DI-Gesture achieves an average accuracy of 97.92%, 99.18% and 98.76% for new users, environments and locations, respectively. In real-time scenario, the accuracy of DI-Gesutre reaches over 97% with average inference time of 2.87ms, which demonstrates the superior robustness and effectiveness of our system.