このホワイトペーパーでは、クラウドカウントのための最近のプラグアンドプレイパッチ再スケーリングモジュール(PRM)ベースのアプローチの改善に焦点を当てています。 PRMの可能性を最大限に活用し、群集の変化、大きな遠近法、極端なオクルージョン、および雑然とした背景領域を持つ挑戦的な画像に対してより信頼性が高く正確な結果を得るために、新しいPRMベースの多重解像度およびマルチタスク群集を提案しますより効果的で強力なPRMモジュールを活用してネットワークをカウントします。提案されたモデルは、3つの深層ブランチで構成され、各ブランチは異なる解像度の特徴マップを生成します。これらのブランチは、相互に機能レベルの融合を実行して、最終的な群集の見積もりに使用される重要な集合的知識を構築します。さらに、初期段階の特徴マップは、前景領域の理解を後期段階のチャネルに強化するために視覚的な注意を引きます。これらのディープブランチとPRMモジュールおよび早期参加ブロックとの統合は、4つのベンチマークデータセットの広範な数値および視覚的評価を通じて、元のPRMベースのスキームよりも効果的であることが証明されています。提案されたアプローチは、RMSE評価基準に関して12.6%のマージンで大幅な改善をもたらします。また、データセット間の評価において、最先端の方法よりも優れています。
The paper focuses on improving the recent plug-and-play patch rescaling module (PRM) based approaches for crowd counting. In order to make full use of the PRM potential and obtain more reliable and accurate results for challenging images with crowd-variation, large perspective, extreme occlusions, and cluttered background regions, we propose a new PRM based multi-resolution and multi-task crowd counting network by exploiting the PRM module with more effectiveness and potency. The proposed model consists of three deep-layered branches with each branch generating feature maps of different resolutions. These branches perform a feature-level fusion across each other to build the vital collective knowledge to be used for the final crowd estimate. Additionally, early-stage feature maps undergo visual attention to strengthen the later-stage channels understanding of the foreground regions. The integration of these deep branches with the PRM module and the early-attended blocks proves to be more effective than the original PRM based schemes through extensive numerical and visual evaluations on four benchmark datasets. The proposed approach yields a significant improvement by a margin of 12.6% in terms of the RMSE evaluation criterion. It also outperforms state-of-the-art methods in cross-dataset evaluations.