arXiv reaDer
自動マルチモーダル人間活動認識システムのための視覚センサーと慣性センサーのデータの新しい 2 ストリームの意思決定レベルの融合
A Novel Two Stream Decision Level Fusion of Vision and Inertial Sensors Data for Automatic Multimodal Human Activity Recognition System
この論文では、新しいマルチモーダルな人間の活動認識システムを紹介します。視覚センサーと慣性センサーの 2 つのストリームの決定レベルの融合を使用します。最初のストリームでは、生の RGB フレームがパーツ アフィニティ フィールドベースの姿勢推定ネットワークに渡され、ユーザーのキーポイントが検出されます。これらのキーポイントは前処理され、空間特徴抽出のために特別に設計された畳み込みニューラル ネットワークにスライディング ウィンドウ方式で入力され、続いて正則化 LSTM によって時間特徴が計算されます。 LSTM ネットワークの出力は、分類のために完全に接続された層に入力されます。 2 番目のストリームでは、慣性センサーから取得されたデータが前処理され、特徴抽出のために正規化 LSTM に入力され、続いて分類のために全結合層が続きます。この段階で、2 つのストリームの SoftMax スコアが決定レベルの融合を使用して融合され、最終的な予測が得られます。性能を評価するために広範な実験が行われます。実験には 4 つのマルチモーダル標準ベンチマーク データセット (UP-Fall 検出、UTD-MHAD、Berkeley-MHAD、および C-MHAD) が使用されます。提案されたシステムによって得られる精度は、UP-Fall Detection、UTMDMHAD、Berkeley-MHAD、および C-MHAD データセットでそれぞれ 96.9 %、97.6 %、98.7 %、および 95.9 % です。これらの結果は、現在の最先端の方法よりもはるかに優れています。
This paper presents a novel multimodal human activity recognition system. It uses a two-stream decision level fusion of vision and inertial sensors. In the first stream, raw RGB frames are passed to a part affinity field-based pose estimation network to detect the keypoints of the user. These keypoints are then pre-processed and inputted in a sliding window fashion to a specially designed convolutional neural network for the spatial feature extraction followed by regularized LSTMs to calculate the temporal features. The outputs of LSTM networks are then inputted to fully connected layers for classification. In the second stream, data obtained from inertial sensors are pre-processed and inputted to regularized LSTMs for the feature extraction followed by fully connected layers for the classification. At this stage, the SoftMax scores of two streams are then fused using the decision level fusion which gives the final prediction. Extensive experiments are conducted to evaluate the performance. Four multimodal standard benchmark datasets (UP-Fall detection, UTD-MHAD, Berkeley-MHAD, and C-MHAD) are used for experimentations. The accuracies obtained by the proposed system are 96.9 %, 97.6 %, 98.7 %, and 95.9 % respectively on the UP-Fall Detection, UTDMHAD, Berkeley-MHAD, and C-MHAD datasets. These results are far superior than the current state-of-the-art methods.
updated: Tue Jun 27 2023 19:29:35 GMT+0000 (UTC)
published: Tue Jun 27 2023 19:29:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト