arXiv reaDer
時間分散ディープ CNN、RNN、および注意ベースのメカニズムを使用した時空間特徴からのリアルタイム敵対行為検出の分析
Analysis of Real-Time Hostile Activitiy Detection from Spatiotemporal Features Using Time Distributed Deep CNNs, RNNs and Attention-Based Mechanisms
CCTVカメラシステムによるリアルタイムのビデオ監視は、今日の優先事項である公共の安全を確保するために不可欠になっています. CCTV カメラはセキュリティの向上に大いに役立ちますが、これらのシステムには常に人間とのやり取りと監視が必要です。この問題を根絶するために、監視システムを自動化して発生した暴力を検出するのに役立つディープ ラーニング ビデオ分類技術を使用して、インテリジェントな監視システムを構築できます。この研究では、暴力が起こっているときにそれを検出するためのディープ ラーニング ビデオ分類技術を調査します。ビデオの分類に関しては、従来の画像分類技術では、予測がちらつき始める各フレームを個別に分類しようとするため、不十分です。そのため、多くの研究者が時空間的な特徴を考慮しながら分類するビデオ分類技術を考え出しています。しかし、これらの深層学習モデルを、姿勢推定によって得られたスケルトン ポイントや深度センサーによって得られたオプティカル フローなどの方法で展開することは、IoT 環境では必ずしも実用的ではありません。これらの手法はより高い精度スコアを保証しますが、計算量が多くなります。これらの制約を念頭に置いて、ConvLSTM、LRCN (カスタム CNN レイヤーと特徴抽出器としての VGG-16 の両方を使用) CNNTransformer、C3D などのさまざまなビデオ分類およびアクション認識手法を実験しました。 ConvLSTM で 80%、CNN-BiLSTM で 83.33%、VGG16-BiLstm で 70%、CNN-Transformer で 76.76%、C3D で 80% のテスト精度を達成しました。
Real-time video surveillance, through CCTV camera systems has become essential for ensuring public safety which is a priority today. Although CCTV cameras help a lot in increasing security, these systems require constant human interaction and monitoring. To eradicate this issue, intelligent surveillance systems can be built using deep learning video classification techniques that can help us automate surveillance systems to detect violence as it happens. In this research, we explore deep learning video classification techniques to detect violence as they are happening. Traditional image classification techniques fall short when it comes to classifying videos as they attempt to classify each frame separately for which the predictions start to flicker. Therefore, many researchers are coming up with video classification techniques that consider spatiotemporal features while classifying. However, deploying these deep learning models with methods such as skeleton points obtained through pose estimation and optical flow obtained through depth sensors, are not always practical in an IoT environment. Although these techniques ensure a higher accuracy score, they are computationally heavier. Keeping these constraints in mind, we experimented with various video classification and action recognition techniques such as ConvLSTM, LRCN (with both custom CNN layers and VGG-16 as feature extractor) CNNTransformer and C3D. We achieved a test accuracy of 80% on ConvLSTM, 83.33% on CNN-BiLSTM, 70% on VGG16-BiLstm ,76.76% on CNN-Transformer and 80% on C3D.
updated: Tue Feb 21 2023 22:02:39 GMT+0000 (UTC)
published: Tue Feb 21 2023 22:02:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト