arXiv reaDer
3D畳み込みニューラルネットワークを使用した監視ビデオからの異常認識
Anomaly Recognition from surveillance videos using 3D Convolutional Neural Networks
異常な行動認識は、通常のストリームとは異なるパターンとイベントの識別を扱います。監視パラダイムでは、これらのイベントは虐待から戦闘、交通事故、ひったくりなどにまで及びます。異常なイベントの発生はまばらであるため、監視ビデオからの異常な活動の認識は困難な研究課題です。報告されているアプローチは、一般的に手作りと深層学習ベースに分類できます。報告された研究のほとんどは、二項分類、つまり監視ビデオからの異常検出に取り組んでいます。しかし、これらの報告されたアプローチは、監視ビデオからの虐待、戦闘、交通事故、銃撃、窃盗、破壊行為、強盗などの他の異常な出来事に対処していませんでした。したがって、このペーパーは、ビデオからさまざまな実世界の異常を認識するための効果的なフレームワークを提供することを目的としています。この研究は、セントラルフロリダ大学(UCF)の犯罪ビデオデータセットでトレーニングされた深い3次元畳み込みネットワーク(3D ConvNets)を使用して、時空間特徴を学習するためのシンプルでありながら効果的なアプローチを提供します。最初に、UCF犯罪データセットのフレームレベルのラベルが提供され、次に、異常な時空間特徴をより効率的に抽出するために、微調整された3DConvNetが提案されます。提案された研究の結果は2つあります1)互いに関連するUCF犯罪ビデオフィードに特定の検出可能で定量化可能な機能が存在します2)マルチクラス学習はデータセットのフレームレベルの情報を効果的に学習することによって3DConvNetの一般化能力を向上させることができます空間拡張を適用することにより、より良い結果の観点から活用できます。
Anomalous activity recognition deals with identifying the patterns and events that vary from the normal stream. In a surveillance paradigm, these events range from abuse to fighting and road accidents to snatching, etc. Due to the sparse occurrence of anomalous events, anomalous activity recognition from surveillance videos is a challenging research task. The approaches reported can be generally categorized as handcrafted and deep learning-based. Most of the reported studies address binary classification i.e. anomaly detection from surveillance videos. But these reported approaches did not address other anomalous events e.g. abuse, fight, road accidents, shooting, stealing, vandalism, and robbery, etc. from surveillance videos. Therefore, this paper aims to provide an effective framework for the recognition of different real-world anomalies from videos. This study provides a simple, yet effective approach for learning spatiotemporal features using deep 3-dimensional convolutional networks (3D ConvNets) trained on the University of Central Florida (UCF) Crime video dataset. Firstly, the frame-level labels of the UCF Crime dataset are provided, and then to extract anomalous spatiotemporal features more efficiently a fine-tuned 3D ConvNets is proposed. Findings of the proposed study are twofold 1)There exist specific, detectable, and quantifiable features in UCF Crime video feed that associate with each other 2) Multiclass learning can improve generalizing competencies of the 3D ConvNets by effectively learning frame-level information of dataset and can be leveraged in terms of better results by applying spatial augmentation.
updated: Mon Jan 04 2021 16:32:48 GMT+0000 (UTC)
published: Mon Jan 04 2021 16:32:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト