制約のない混雑したシーンの人数の自動推定は困難な作業であり、1つの大きな困難は、人数の大きなスケールのばらつきに起因します。本論文では、構造化された特徴表現の学習と階層構造化された損失関数の最適化を使用して、人々のスケール変動に対処する、クラウドカウント用の新しい深層構造スケール統合ネットワーク(DSSINet)を提案します。複数の機能を加重平均または連結で直接融合する従来の方法とは異なり、条件付きランダムフィールド(CRF)に基づく構造化機能強化モジュールを最初に導入して、メッセージパッシングメカニズムでマルチスケール機能を相互に調整します。このモジュールでは、各スケール固有の機能は連続的なランダム変数と見なされ、補完情報を渡して他のスケールで機能を調整します。次に、拡張マルチスケール構造類似性損失を利用してDSSINetを実施し、さまざまなサイズの領域内の人々のスケールのローカル相関を学習して、高品質の密度マップを生成します。 4つの難易度の高いベンチマークでの広範な実験は、この方法の有効性をよく示しています。具体的には、当社のDSSINetは、Shanghaitechデータセットで9.5%のエラー削減、UCF-QNRFデータセットで24.9%の最新のメソッドに対する改善を達成しています。
Automatic estimation of the number of people in unconstrained crowded scenes is a challenging task and one major difficulty stems from the huge scale variation of people. In this paper, we propose a novel Deep Structured Scale Integration Network (DSSINet) for crowd counting, which addresses the scale variation of people by using structured feature representation learning and hierarchically structured loss function optimization. Unlike conventional methods which directly fuse multiple features with weighted average or concatenation, we first introduce a Structured Feature Enhancement Module based on conditional random fields (CRFs) to refine multiscale features mutually with a message passing mechanism. In this module, each scale-specific feature is considered as a continuous random variable and passes complementary information to refine the features at other scales. Second, we utilize a Dilated Multiscale Structural Similarity loss to enforce our DSSINet to learn the local correlation of people's scales within regions of various size, thus yielding high-quality density maps. Extensive experiments on four challenging benchmarks well demonstrate the effectiveness of our method. Specifically, our DSSINet achieves improvements of 9.5% error reduction on Shanghaitech dataset and 24.9% on UCF-QNRF dataset against the state-of-the-art methods.