食事中の個々の摂取ジェスチャーの自動検出は、食事の監視を改善し、食事の推奨事項をサポートする可能性があります。既存の研究では通常、慣性センサーや音声センサーなどの身体のソリューションを利用しますが、ビデオはグラウンドトゥルースとして使用されます。ビデオに直接基づく摂取ジェスチャーの検出はめったに試みられていません。この研究では、このギャップに対処し、ディープラーニングアーキテクチャを摂取ジェスチャーのビデオベースの検出の問題にうまく適用できることを示します。この目的のために、102人の参加者の360度ビデオを使用して、食事の機会のビデオデータを収集し、ラベルを付けます。ビデオアクション認識からの最新のアプローチを適用すると、(1)最高のモデルが$ F_1 $スコア0.858を達成し、(2)動きの特徴よりも外観の特徴が大きく貢献し、(3)時間的コンテキスト複数のビデオフレームの形式は、トップモデルのパフォーマンスに不可欠です。
Automatic detection of individual intake gestures during eating occasions has the potential to improve dietary monitoring and support dietary recommendations. Existing studies typically make use of on-body solutions such as inertial and audio sensors, while video is used as ground truth. Intake gesture detection directly based on video has rarely been attempted. In this study, we address this gap and show that deep learning architectures can successfully be applied to the problem of video-based detection of intake gestures. For this purpose, we collect and label video data of eating occasions using 360-degree video of 102 participants. Applying state-of-the-art approaches from video action recognition, our results show that (1) the best model achieves an $F_1$ score of 0.858, (2) appearance features contribute more than motion features, and (3) temporal context in form of multiple video frames is essential for top model performance.