arXiv reaDer
高い時間分解能でのアクション識別のためのシーケンス間モデリング
Sequence-to-Sequence Modeling for Action Identification at High Temporal Resolution
ビデオおよび運動学的データからの自動アクション識別は、ロボット工学からスマートヘルスに至るまでのアプリケーションにおける重要な機械学習の問題です。既存の作品のほとんどは、野菜の走り、登り、刈り取りなど、比較的長時間の粗い行動を特定することに焦点を当てています。これは、高い時間分解能で微妙な動きを識別する必要があるアプリケーションにとって重要な制限です。たとえば、脳卒中の回復では、リハビリテーションの線量を定量化するには、1秒未満の持続時間で動作を区別する必要があります。私たちの目標は、このギャップを埋めることです。この目的のために、大規模なマルチモーダルデータセットであるStrokeRehabを、高い時間分解能でラベル付けされた微妙な短期間のアクションを含む新しいアクション認識ベンチマークとして導入します。これらの短期間のアクションは機能プリミティブと呼ばれ、リーチ、トランスポート、再配置、安定化、およびアイドルで構成されます。データセットは、高品質の慣性計測ユニットセンサーと、摂食や歯磨きなどの日常生活動作を行っている41人の脳卒中障害患者のビデオデータで構成されています。セグメンテーションに基づく最新のモデルではノイズが発生することを示しています。これらのデータに適用された場合の予測。これは、アクションの過大評価につながることがよくあります。これに対処するために、我々は、行動のシーケンスを直接予測するシーケンス間モデルに基づく音声認識技術に触発された、高解像度のアクション識別のための新しいアプローチを提案します。このアプローチは、StrokeRehabデータセット、および標準のベンチマークデータセットである50Salads、Breakfast、およびJigsawsの現在の最先端の方法よりも優れています。
Automatic action identification from video and kinematic data is an important machine learning problem with applications ranging from robotics to smart health. Most existing works focus on identifying coarse actions such as running, climbing, or cutting a vegetable, which have relatively long durations. This is an important limitation for applications that require the identification of subtle motions at high temporal resolution. For example, in stroke recovery, quantifying rehabilitation dose requires differentiating motions with sub-second durations. Our goal is to bridge this gap. To this end, we introduce a large-scale, multimodal dataset, StrokeRehab, as a new action-recognition benchmark that includes subtle short-duration actions labeled at a high temporal resolution. These short-duration actions are called functional primitives, and consist of reaches, transports, repositions, stabilizations, and idles. The dataset consists of high-quality Inertial Measurement Unit sensors and video data of 41 stroke-impaired patients performing activities of daily living like feeding, brushing teeth, etc. We show that current state-of-the-art models based on segmentation produce noisy predictions when applied to these data, which often leads to overcounting of actions. To address this, we propose a novel approach for high-resolution action identification, inspired by speech-recognition techniques, which is based on a sequence-to-sequence model that directly predicts the sequence of actions. This approach outperforms current state-of-the-art methods on the StrokeRehab dataset, as well as on the standard benchmark datasets 50Salads, Breakfast, and Jigsaws.
updated: Wed Nov 03 2021 21:06:36 GMT+0000 (UTC)
published: Wed Nov 03 2021 21:06:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト