深さおよび慣性センサーデータを使用した人間行動認識(HAR)のマルチモーダル融合フレームワークは、長年にわたって提案されてきました。既存の作品のほとんどでは、融合は単一のレベル(機能レベルまたは決定レベル)で実行され、より良い分類に必要な豊富な中間レベルの機能を融合する機会がありません。この欠点に対処するために、本書では、さまざまな段階で異なる融合戦略を活用し、マルチレベル融合の優位性を活用するために、3つの新しいマルチレベルマルチモーダル融合フレームワークを提案します。入力時に、深度データをシーケンシャルフロントビューイメージ(SFI)と呼ばれる深度画像に変換し、慣性センサーデータを信号画像に変換します。各入力モダリティ、深度、慣性は、Prewittフィルターで畳み込みを行うことによりさらにマルチモーダルになります。 「モダリティ内のモダリティ」を作成すると、Convolutional Neural Networks(CNN)を介してさらに補完的かつ識別的な特徴抽出が可能になります。 CNNは、各モダリティの入力画像でトレーニングされ、低レベル、高レベル、および複雑な機能を学習します。学習された特徴は、提案されたフレームワークのさまざまな段階で抽出および融合され、識別情報と補完情報を組み合わせます。これらの非常に有益な機能は、マルチクラスサポートベクターマシン(SVM)への入力として提供されます。 3つの公開されているマルチモーダルHARデータセット、つまりUTDマルチモーダル人間行動データセット(MHAD)、バークレーMHAD、およびUTD-MHAD Kinect V2で提案されているフレームワークを評価します。実験結果は、既存の方法に対する提案された融合フレームワークの優位性を示しています。
Multimodal fusion frameworks for Human Action Recognition (HAR) using depth and inertial sensor data have been proposed over the years. In most of the existing works, fusion is performed at a single level (feature level or decision level), missing the opportunity to fuse rich mid-level features necessary for better classification. To address this shortcoming, in this paper, we propose three novel deep multilevel multimodal fusion frameworks to capitalize on different fusion strategies at various stages and to leverage the superiority of multilevel fusion. At input, we transform the depth data into depth images called sequential front view images (SFIs) and inertial sensor data into signal images. Each input modality, depth and inertial, is further made multimodal by taking convolution with the Prewitt filter. Creating "modality within modality" enables further complementary and discriminative feature extraction through Convolutional Neural Networks (CNNs). CNNs are trained on input images of each modality to learn low-level, high-level and complex features. Learned features are extracted and fused at different stages of the proposed frameworks to combine discriminative and complementary information. These highly informative features are served as input to a multi-class Support Vector Machine (SVM). We evaluate the proposed frameworks on three publicly available multimodal HAR datasets, namely, UTD Multimodal Human Action Dataset (MHAD), Berkeley MHAD, and UTD-MHAD Kinect V2. Experimental results show the supremacy of the proposed fusion frameworks over existing methods.