arXiv reaDer
Cascaded Dual Attention CNN と Bi-Directional GRU Framework を使用した人間の行動認識
Human Activity Recognition Using Cascaded Dual Attention CNN and Bi-Directional GRU Framework
視覚に基づく人間の活動認識は、ビデオ分析ドメインの重要な研究分野の 1 つとして浮上しています。過去 10 年間で、ビデオ ストリームから複雑な人間の行動を認識するために、多数の高度なディープ ラーニング アルゴリズムが導入されました。これらの深層学習アルゴリズムは、人間の活動認識タスクで優れたパフォーマンスを示しています。ただし、これらの新しく導入された方法は、モデルのパフォーマンスまたは計算効率と堅牢性の観点からこれらのモデルの有効性のみに焦点を当てているため、挑戦的な人間の活動認識の問題に対処するための提案に偏ったトレードオフが生じます。人間の活動認識のための現代の深層学習モデルの限界を克服するために、この論文では、人間の活動認識のために深い識別可能な空間的および時間的特徴を活用する、計算効率が高く、一般的な時空間カスケード フレームワークを提示します。人間の行動を効率的に表現するために、ビデオ フレーム内の人間中心の顕著な特徴を抽出するために、統合されたチャネル空間アテンション メカニズムを活用する効率的なデュアル アテンション畳み込みニューラル ネットワーク (CNN) アーキテクチャを提案しました。畳み込み層と組み合わせたデュアル チャネル空間注意層は、特徴マップの数を超えるオブジェクトを持つ空間受容野でより注意を払うことを学習します。抽出された識別的な顕著な特徴は、フォワード パス勾配学習とバックワード パス勾配学習の両方を使用して、長期的な時間モデリングと人間の行動の認識のために、スタックされた双方向ゲート リカレント ユニット (Bi-GRU) に転送されます。広範な実験が行われ、得られた結果は、提案されたフレームワークが、現在のほとんどのアクション認識方法と比較して、1 秒あたりのフレーム数で最大 167 倍の実行時間の改善を達成することを示しています。
Vision-based human activity recognition has emerged as one of the essential research areas in video analytics domain. Over the last decade, numerous advanced deep learning algorithms have been introduced to recognize complex human actions from video streams. These deep learning algorithms have shown impressive performance for the human activity recognition task. However, these newly introduced methods either exclusively focus on model performance or the effectiveness of these models in terms of computational efficiency and robustness, resulting in a biased tradeoff in their proposals to deal with challenging human activity recognition problem. To overcome the limitations of contemporary deep learning models for human activity recognition, this paper presents a computationally efficient yet generic spatial-temporal cascaded framework that exploits the deep discriminative spatial and temporal features for human activity recognition. For efficient representation of human actions, we have proposed an efficient dual attentional convolutional neural network (CNN) architecture that leverages a unified channel-spatial attention mechanism to extract human-centric salient features in video frames. The dual channel-spatial attention layers together with the convolutional layers learn to be more attentive in the spatial receptive fields having objects over the number of feature maps. The extracted discriminative salient features are then forwarded to stacked bi-directional gated recurrent unit (Bi-GRU) for long-term temporal modeling and recognition of human actions using both forward and backward pass gradient learning. Extensive experiments are conducted, where the obtained results show that the proposed framework attains an improvement in execution time up to 167 times in terms of frames per second as compared to most of the contemporary action recognition methods.
updated: Tue Aug 09 2022 20:34:42 GMT+0000 (UTC)
published: Tue Aug 09 2022 20:34:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト