群衆の位置特定は、群衆シナリオにおける人間の空間位置を予測することを目的としています。既存の方法のパフォーマンスは、次の 2 つの側面から挑戦されていることがわかります。(i) テスト フェーズとトレーニング フェーズ間のランキングの不一致。 (ii)固定アンカー解像度は、ローカル地域の群衆密度に適合しないか過剰適合する可能性があります。これらの問題に対処するために、トレーニングの監視対象の再割り当て戦略を設計してランキングの不一致を減らし、各画像領域のアンカー密度を適応的に決定するアンカー ピラミッド スキームを提案します。広く採用されている 3 つのデータセット (ShanghaiTech A\&B、JHU-CROWD++、UCF-QNRF) に関する広範な実験結果は、いくつかの最先端の方法に対して良好なパフォーマンスを示しています。
Crowd localization aims to predict the spatial position of humans in a crowd scenario. We observe that the performance of existing methods is challenged from two aspects: (i) ranking inconsistency between test and training phases; and (ii) fixed anchor resolution may underfit or overfit crowd densities of local regions. To address these problems, we design a supervision target reassignment strategy for training to reduce ranking inconsistency and propose an anchor pyramid scheme to adaptively determine the anchor density in each image region. Extensive experimental results on three widely adopted datasets (ShanghaiTech A\&B, JHU-CROWD++, UCF-QNRF) demonstrate the favorable performance against several state-of-the-art methods.