arXiv reaDer
マスク着用率を推定するための検出ベースおよび回帰ベースのアプローチの有効性
Effectiveness of Detection-based and Regression-based Approaches for Estimating Mask-Wearing Ratio
公共の場所でのマスク着用率を推定することは、保健当局が政策を迅速に分析して実施することを可能にするので重要です。画像解析に基づいてマスク着用率を推定する方法が報告されている。ただし、方法論とデータセットの両方に関する包括的な研究はまだ不足しています。最新のレポートでは、従来のオブジェクト検出および分類方法を適用して比率を推定することを簡単に提案しています。回帰ベースのアプローチを使用してマスクを着用している人の数を推定することは可能ですが、特に顔が小さくて閉塞している混雑したシーンでは、これは十分に研究されていません。大規模で注釈の付いたデータセットは依然として需要があります。このホワイトペーパーでは、検出ベースまたは回帰ベースのアプローチを活用する比率推定の2つの方法を紹介します。検出ベースのアプローチでは、比率の推定に使用される最先端の顔検出器RetinaFaceを改善しました。回帰ベースのアプローチでは、マスクされた面とマスクされていない面の密度マップを推定するために使用されるベースラインネットワークCSRNetを微調整しました。また、最初の大規模データセットである「NFMデータセット」を紹介します。このデータセットには、17のストリートビュービデオの18,088のビデオフレームから抽出された581,108の顔の注釈が含まれています。実験により、RetinaFaceベースの方法はさまざまな状況下でより高い精度を持ち、CSRNetベースの方法はそのコンパクトさのおかげで操作時間が短いことが実証されました。
Estimating the mask-wearing ratio in public places is important as it enables health authorities to promptly analyze and implement policies. Methods for estimating the mask-wearing ratio on the basis of image analysis have been reported. However, there is still a lack of comprehensive research on both methodologies and datasets. Most recent reports straightforwardly propose estimating the ratio by applying conventional object detection and classification methods. It is feasible to use regression-based approaches to estimate the number of people wearing masks, especially for congested scenes with tiny and occluded faces, but this has not been well studied. A large-scale and well-annotated dataset is still in demand. In this paper, we present two methods for ratio estimation that leverage either a detection-based or regression-based approach. For the detection-based approach, we improved the state-of-the-art face detector, RetinaFace, used to estimate the ratio. For the regression-based approach, we fine-tuned the baseline network, CSRNet, used to estimate the density maps for masked and unmasked faces. We also present the first large-scale dataset, the ``NFM dataset,'' which contains 581,108 face annotations extracted from 18,088 video frames in 17 street-view videos. Experiments demonstrated that the RetinaFace-based method has higher accuracy under various situations and that the CSRNet-based method has a shorter operation time thanks to its compactness.
updated: Fri Dec 03 2021 07:28:07 GMT+0000 (UTC)
published: Thu Nov 25 2021 03:32:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト