大規模なイベントでの群衆の監視と管理のための空中画像の多くの利点にもかかわらず、群集の空中画像のデータセットはまだ現場にありません。救済策として、この作業では、226,291人の注釈が付けられた大規模イベントでの16の飛行キャンペーンから取得した33の大きな航空画像で構成される、DLR Aerial Crowd Dataset(DLR-ACD)を紹介します。私たちの知る限り、DLR-ACDは最初の航空群集データセットであり、一般公開されます。群衆の空中画像における正確な群衆のカウントと密度マップの推定の問題に取り組むために、この研究では、新しいエンコーダーデコーダー畳み込みニューラルネットワーク、いわゆるMulti-Resolution Crowd Network MRCNetも提案しています。エンコーダはVGG-16ネットワークに基づいており、デコーダは一連の双線形アップサンプリングおよび畳み込み層で構成されています。 MRCNetは、デコーダーの初期レベルと最終レベルの2つの損失を使用して、クラウドカウントと高解像度クラウド密度マップを2つの異なるが相互に関連するタスクとして推定します。さらに、MRCNetは、フィーチャピラミッドネットワーク(FPN)技術に触発された多数の横方向の接続を通じて、高レベルおよび低レベルの機能を組み合わせることにより、コンテキストおよび詳細なローカル情報を利用します。提案されたDLR-ACDデータセットおよびCCTVベースのクラウドカウントベンチマークであるShanghaiTechデータセットでMRCNetを評価しました。結果は、MRCNetが航空写真とCCTVベースの画像の両方の群衆数と密度マップを推定する際に、最先端の群衆計数方法よりも優れていることを示しています。
In spite of the many advantages of aerial imagery for crowd monitoring and management at mass events, datasets of aerial images of crowds are still lacking in the field. As a remedy, in this work we introduce a novel crowd dataset, the DLR Aerial Crowd Dataset (DLR-ACD), which is composed of 33 large aerial images acquired from 16 flight campaigns over mass events with 226,291 persons annotated. To the best of our knowledge, DLR-ACD is the first aerial crowd dataset and will be released publicly. To tackle the problem of accurate crowd counting and density map estimation in aerial images of crowds, this work also proposes a new encoder-decoder convolutional neural network, the so-called Multi-Resolution Crowd Network MRCNet. The encoder is based on the VGG-16 network and the decoder is composed of a set of bilinear upsampling and convolutional layers. Using two losses, one at an earlier level and another at the last level of the decoder, MRCNet estimates crowd counts and high-resolution crowd density maps as two different but interrelated tasks. In addition, MRCNet utilizes contextual and detailed local information by combining high- and low-level features through a number of lateral connections inspired by the Feature Pyramid Network (FPN) technique. We evaluated MRCNet on the proposed DLR-ACD dataset as well as on the ShanghaiTech dataset, a CCTV-based crowd counting benchmark. The results demonstrate that MRCNet outperforms the state-of-the-art crowd counting methods in estimating the crowd counts and density maps for both aerial and CCTV-based images.