arXiv reaDer
Eat-Radar: FMCW レーダーと 3D 時間畳み込みネットワークを使用した連続的な細粒度の食事ジェスチャー検出
Eat-Radar: Continuous Fine-Grained Eating Gesture Detection Using FMCW Radar and 3D Temporal Convolutional Network
不健康な食生活は、肥満や糖尿病などの複数の慢性疾患の主な原因と考えられています。自動食物摂取監視システムは、食事の評価を通じて、食事関連疾患を持つ人々の生活の質 (QoF) を改善する可能性を秘めています。この作業では、新しい非接触レーダーベースの食物摂取量監視アプローチを提案します。具体的には、Frequency Modulated Continuous Wave (FMCW) レーダー センサーを使用して、細かい飲食のジェスチャーを認識します。きめ細かな飲食のジェスチャーには、口元まで手を上げてから手を口から離すまでの一連の動作が含まれます。 3D 時間畳み込みネットワーク (3D-TCN) は、Range-Doppler Cube (RD Cube) を処理することにより、食事セッションでの飲食ジェスチャーを検出してセグメント化するために開発されました。以前のレーダーベースの研究とは異なり、この研究は連続した食事セッションでデータを収集します。合計 783 分の 48 人の参加者からの 48 回の食事セッション (3121 回の食事のジェスチャーと 608 回の飲酒のジェスチャー) を含む公開データセットを作成します。このデータセットには、4 つの食事スタイル (フォークとナイフ、箸、スプーン、手) が含まれています。提案されたアプローチのパフォーマンスを検証するために、8 分割クロス検証メソッドが適用されます。実験結果は、私たちが提案した 3D-TCN が、畳み込みニューラル ネットワークと長短期記憶ネットワークを組み合わせたモデル (CNN-LSTM)、および CNN-Bidirectional LSTM モデル (CNN-BiLSTM) よりも、食事と食事において優れていることを示しています。飲酒ジェスチャー検出。 3D-TCN モデルは、食事と飲酒のジェスチャーでそれぞれ 0.887 と 0.844 のセグメント F1 スコアを達成します。提案されたアプローチの結果は、食事セッションでの細粒度の飲食ジェスチャ検出とセグメンテーションにレーダーを使用することの実現可能性を示しています。
Unhealthy dietary habits are considered as the primary cause of multiple chronic diseases such as obesity and diabetes. The automatic food intake monitoring system has the potential to improve the quality of life (QoF) of people with dietary related diseases through dietary assessment. In this work, we propose a novel contact-less radar-based food intake monitoring approach. Specifically, a Frequency Modulated Continuous Wave (FMCW) radar sensor is employed to recognize fine-grained eating and drinking gestures. The fine-grained eating/drinking gesture contains a series of movement from raising the hand to the mouth until putting away the hand from the mouth. A 3D temporal convolutional network (3D-TCN) is developed to detect and segment eating and drinking gestures in meal sessions by processing the Range-Doppler Cube (RD Cube). Unlike previous radar-based research, this work collects data in continuous meal sessions. We create a public dataset that contains 48 meal sessions (3121 eating gestures and 608 drinking gestures) from 48 participants with a total duration of 783 minutes. Four eating styles (fork & knife, chopsticks, spoon, hand) are included in this dataset. To validate the performance of the proposed approach, 8-fold cross validation method is applied. Experimental results show that our proposed 3D-TCN outperforms the model that combines a convolutional neural network and a long-short-term-memory network (CNN-LSTM), and also the CNN-Bidirectional LSTM model (CNN-BiLSTM) in eating and drinking gesture detection. The 3D-TCN model achieves a segmental F1-score of 0.887 and 0.844 for eating and drinking gestures, respectively. The results of the proposed approach indicate the feasibility of using radar for fine-grained eating and drinking gesture detection and segmentation in meal sessions.
updated: Tue Nov 08 2022 14:03:44 GMT+0000 (UTC)
published: Tue Nov 08 2022 14:03:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト