arXiv reaDer
監視ビデオデータセットで社会距離拡大とフェイスマスク検出を使用するCOVID-19監視システム
COVID-19 Monitoring System using Social Distancing and Face Mask Detection on Surveillance video datasets
現在、COVID-19ウイルスの恐れと危険性は依然として大きいです。社会的距離の規範を手動で監視することは、大勢の人々が動き回っていて、それらを管理するためのタスクフォースとリソースが不十分であるため、実用的ではありません。このプロセスを自動化する、軽量で堅牢な24時間365日のビデオ監視システムが必要です。このペーパーでは、人物検出、社会的距離違反検出、顔検出、およびオブジェクト検出、クラスタリング、畳み込みニューラルネットワーク(CNN)ベースのバイナリ分類器を使用したフェイスマスク分類を実行するための包括的で効果的なソリューションを提案します。このために、YOLOv3、ノイズのあるアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、デュアルショット顔検出器(DSFD)、およびMobileNetV2ベースのバイナリ分類器が監視ビデオデータセットに採用されています。このペーパーでは、さまざまな顔検出モデルとフェイスマスク分類モデルの比較研究も提供します。最後に、コミュニティ内のデータセットの不足を補うために、ラベル付けされたビデオデータセットとともにビデオデータセットのラベル付け方法が提案され、システムの評価に使用されます。システムのパフォーマンスは、精度、F1スコア、および予測時間の観点から評価されます。予測時間は、実用性を確保するために低くする必要があります。システムは、ラベル付けされたビデオデータセットで91.2%の精度と90.79%のF1スコアで実行され、78フレームのビデオの平均予測時間は7.12秒です。
In the current times, the fear and danger of COVID-19 virus still stands large. Manual monitoring of social distancing norms is impractical with a large population moving about and with insufficient task force and resources to administer them. There is a need for a lightweight, robust and 24X7 video-monitoring system that automates this process. This paper proposes a comprehensive and effective solution to perform person detection, social distancing violation detection, face detection and face mask classification using object detection, clustering and Convolution Neural Network (CNN) based binary classifier. For this, YOLOv3, Density-based spatial clustering of applications with noise (DBSCAN), Dual Shot Face Detector (DSFD) and MobileNetV2 based binary classifier have been employed on surveillance video datasets. This paper also provides a comparative study of different face detection and face mask classification models. Finally, a video dataset labelling method is proposed along with the labelled video dataset to compensate for the lack of dataset in the community and is used for evaluation of the system. The system performance is evaluated in terms of accuracy, F1 score as well as the prediction time, which has to be low for practical applicability. The system performs with an accuracy of 91.2% and F1 score of 90.79% on the labelled video dataset and has an average prediction time of 7.12 seconds for 78 frames of a video.
updated: Fri Dec 16 2022 15:45:18 GMT+0000 (UTC)
published: Fri Oct 08 2021 05:57:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト