群衆のカウントは、制約のない混雑したシーンの画像内のオブジェクト(例:人や乗り物)の数を推定することです。広範な群衆画像に適用できる一般的な群衆計数アルゴリズムの設計は、主にオブジェクトスケールの大きな変動と多くの孤立した小さなクラスターの存在により困難です。マルチブランチアーキテクチャを使用した畳み込み演算に基づく以前のアプローチは、スケールの一部の狭い帯域にのみ効果的であり、孤立したクラスタリングによる長距離のコンテキスト関係をキャプチャしていません。これに対処するため、クラウドカウント用の新しいスケール適応型の長距離コンテキスト認識ネットワークであるSACANetを提案します。 SACANetは、3つの主要なモジュールで構成されています。長距離のコンテキスト情報を抽出して受容野を拡大するピラミッドコンテキストモジュール、孤立クラスターの高スケールの感度と検出精度を達成するためのスケール適応自己注意マルチブランチモジュール、および階層マルチレベルの自己注意機能を融合する融合モジュール。グループの正規化により、SACANetはトレーニングプロセスの最適性を向上させます。 VisDrone2019 Peopleデータセット、VisDrone2019 Vehicleデータセット、およびその他の困難なベンチマークを使用して、広範な実験を実施しました。最先端の方法と比較して、SACANetは、特に多様なスケールと散在するクラスターを伴う非常に混雑した条件に対して効果的であることが示されており、ベースラインと比較してはるかに低いMAEを達成します。
Crowd counting is to estimate the number of objects (e.g., people or vehicles) in an image of unconstrained congested scenes. Designing a general crowd counting algorithm applicable to a wide range of crowd images is challenging, mainly due to the possibly large variation in object scales and the presence of many isolated small clusters. Previous approaches based on convolution operations with multi-branch architecture are effective for only some narrow bands of scales and have not captured the long-range contextual relationship due to isolated clustering. To address that, we propose SACANet, a novel scale-adaptive long-range context-aware network for crowd counting. SACANet consists of three major modules: the pyramid contextual module which extracts long-range contextual information and enlarges the receptive field, a scale-adaptive self-attention multi-branch module to attain high scale sensitivity and detection accuracy of isolated clusters, and a hierarchical fusion module to fuse multi-level self-attention features. With group normalization, SACANet achieves better optimality in the training process. We have conducted extensive experiments using the VisDrone2019 People dataset, the VisDrone2019 Vehicle dataset, and some other challenging benchmarks. As compared with the state-of-the-art methods, SACANet is shown to be effective, especially for extremely crowded conditions with diverse scales and scattered clusters, and achieves much lower MAE as compared with baselines.