過去数年にわたって、研究者は、画像からのオブジェクトの検出と認識のためのアプリケーションを含む、畳み込みニューラルネットワークの多くの異なるアプリケーションを提示してきました。私たち自身の性質を理解したいという願望は、常に研究の重要な動機でした。したがって、人間の視覚認識は、今日の機械学習が直面している最も重要な問題の1つです。このタスクのほとんどのソリューションは、公開されているいくつかのデータセットを使用して開発およびテストされています。これらのデータセットには通常、低角度のビューを提供する街路レベルの閉回路テレビカメラから撮影した画像が含まれています。このような画像と空から撮影した画像には大きな違いがあります。さらに、航空画像は多くの場合非常に混雑しており、数百のターゲットが含まれています。これらの要因は、結果の品質に大きな影響を与える可能性があります。この論文では、歩行者をカウントするための最先端の方法と、空中映像のパフォーマンスを調査します。さらに、画像の混雑レベルに関してこのパフォーマンスを分析します。
Over the past few years, researchers have presented many different applications for convolutional neural networks, including those for the detection and recognition of objects from images. The desire to understand our own nature has always been an important motivation for research. Thus, the visual recognition of humans is among the most important issues facing machine learning today. Most solutions for this task have been developed and tested by using several publicly available datasets. These datasets typically contain images taken from street-level closed-circuit television cameras offering a low-angle view. There are major differences between such images and those taken from the sky. In addition, aerial images are often very congested, containing hundreds of targets. These factors may have significant impact on the quality of the results. In this paper, we investigate state-of-the-art methods for counting pedestrians and the related performance of aerial footage. Furthermore, we analyze this performance with respect to the congestion levels of the images.