自動群衆行動分析は、さまざまな道路参加者の効果的なフロー制御と動的ルート計画を可能にするインテリジェント交通システムの重要なタスクです。群集カウントは、群集の自動動作分析の鍵の1つです。深い畳み込みニューラルネットワーク(CNN)を使用した群集カウントは、近年、有望な進歩を遂げています。研究者たちは、さまざまなCNNアーキテクチャの設計に多くの努力を傾けてきました。それらのほとんどは、事前トレーニング済みのVGG16モデルに基づいています。表現能力が不十分なため、VGG16のバックボーンネットワークの後には、通常、良好なカウントパフォーマンス用に特別に設計された別の厄介なネットワークが続きます。 VGGモデルは画像分類タスクでInceptionモデルよりも優れていますが、Inceptionモジュールで構築された既存の群集カウントネットワークには、基本的なタイプのInceptionモジュールの少数のレイヤーしかありません。このギャップを埋めるために、このホワイトペーパーでは、最初にベースラインのInception-v3モデルを一般的に使用される群集カウントデータセットでベンチマークし、既存のほとんどの群集カウントモデルと同等以上の驚くほど優れたパフォーマンスを実現します。その後、Inception-v3をバックボーンとしてセグメンテーションガイド付きアテンションネットワーク(SGANet)を提案し、群集カウントのための新しいカリキュラムの損失を提案することで、この破壊的な作業の境界をさらに広げます。 SGANetのパフォーマンスを先行技術と比較するために徹底的な実験を行い、提案されたモデルは、ShanghaiTechA、ShanghaiTechB、UCF \ _QNRFでそれぞれ57.6、6.3、および87.6のMAEで最先端のパフォーマンスを達成できます。
Automatic crowd behaviour analysis is an important task for intelligent transportation systems to enable effective flow control and dynamic route planning for varying road participants. Crowd counting is one of the keys to automatic crowd behaviour analysis. Crowd counting using deep convolutional neural networks (CNN) has achieved encouraging progress in recent years. Researchers have devoted much effort to the design of variant CNN architectures and most of them are based on the pre-trained VGG16 model. Due to the insufficient expressive capacity, the backbone network of VGG16 is usually followed by another cumbersome network specially designed for good counting performance. Although VGG models have been outperformed by Inception models in image classification tasks, the existing crowd counting networks built with Inception modules still only have a small number of layers with basic types of Inception modules. To fill in this gap, in this paper, we firstly benchmark the baseline Inception-v3 model on commonly used crowd counting datasets and achieve surprisingly good performance comparable with or better than most existing crowd counting models. Subsequently, we push the boundary of this disruptive work further by proposing a Segmentation Guided Attention Network (SGANet) with Inception-v3 as the backbone and a novel curriculum loss for crowd counting. We conduct thorough experiments to compare the performance of our SGANet with prior arts and the proposed model can achieve state-of-the-art performance with MAE of 57.6, 6.3 and 87.6 on ShanghaiTechA, ShanghaiTechB and UCF\_QNRF, respectively.