arXiv reaDer
ビデオベースの群集推定のための不確実なマッチングを伴う時空間拡張畳み込み
Spatiotemporal Dilated Convolution with Uncertain Matching for Video-based Crowd Estimation
この論文では、ビデオベースの群集カウント問題に対処するための新しいSpatioTemporal畳み込み高密度ネットワーク(STDNet)を提案します。これには、3D畳み込みの分解と3D時空間拡張畳み込みが含まれ、 Conv3Dレイヤー。さらに、拡張畳み込みはマルチスケール特徴を抽出するため、拡張畳み込みをチャネル注意ブロックと組み合わせて、特徴表現を強化します。特にビデオの場合、群集のラベル付けの難しさから発生するエラーのため、不正確または標準の一貫性のないラベルは、モデルの収束が不十分になる可能性があります。この問題に対処するために、元のピクセル単位の損失を改善するための新しいパッチ単位の回帰損失(PRL)をさらに提案します。 3つのビデオベースのベンチマーク、つまり、UCSD、Mall、およびWorldExpo'10データセットでの実験結果は、STDNetが画像ベースとビデオベースの両方の最先端の方法よりも優れていることを示しています。ソースコードはhttps://github.com/STDNet/STDNetでリリースされています。
In this paper, we propose a novel SpatioTemporal convolutional Dense Network (STDNet) to address the video-based crowd counting problem, which contains the decomposition of 3D convolution and the 3D spatiotemporal dilated dense convolution to alleviate the rapid growth of the model size caused by the Conv3D layer. Moreover, since the dilated convolution extracts the multiscale features, we combine the dilated convolution with the channel attention block to enhance the feature representations. Due to the error that occurs from the difficulty of labeling crowds, especially for videos, imprecise or standard-inconsistent labels may lead to poor convergence for the model. To address this issue, we further propose a new patch-wise regression loss (PRL) to improve the original pixel-wise loss. Experimental results on three video-based benchmarks, i.e., the UCSD, Mall and WorldExpo'10 datasets, show that STDNet outperforms both image- and video-based state-of-the-art methods. The source codes are released at https://github.com/STDNet/STDNet.
updated: Fri Jan 29 2021 07:21:33 GMT+0000 (UTC)
published: Fri Jan 29 2021 07:21:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト