Global Sum Pooling: A Generalization Trick for Object Counting with Small Datasets of Large Images
  この論文では、少数の高解像度の可変形状画像で構成されるデータセット内のオブジェクトをカウントするためのワンルック回帰モデルのトレーニングの問題を調査します。従来のグローバル平均プーリング(GAP)ベースのモデルは、パッチごとの推論の真の過大評価と過小評価をパッチごとにキャンセルするため、信頼できないことを示しています。この制限を克服し、フル解像度画像のトレーニングによって引き起こされる過剰適合を減らすために、畳み込みネットワークのバックエンドでGAPまたは完全接続(FC)レイヤーの代わりにグローバルサムプーリング(GSP)を採用することを提案します。計算的にはGAPと同等ですが、包括的な実験により、GSPにより、畳み込みネットワークがカウントタスクを入力形状と存在するオブジェクトの数に一般化された単純な線形マッピング問題として学習できることがわかります。この一般化機能により、GSPは小さなパッチのトレーニングと全体としてのフル解像度画像の推論により、パッチごとのキャンセルとオーバーフィッティングの両方を回避できます。 4つの異なる航空画像データセット-2つの車カウントデータセット(CARPKおよびCOWC)、1つの群衆カウントデータセット(ShanghaiTech;パートAおよびB)、および小麦スパイクカウント用の1つの新しい挑戦的なデータセットでアプローチを評価します。当社のGSPモデルは、シンプルなアーキテクチャを備えた4つのデータセットすべてに対する最先端のアプローチを改善しています。また、小さなサイズの画像パッチでトレーニングされたGSPアーキテクチャは、トレーニング中に小さな領域から学習することに焦点を合わせているため、より良いローカリゼーションプロパティを示します。
In this paper, we explore the problem of training one-look regression models for counting objects in datasets comprising a small number of high-resolution, variable-shaped images. We illustrate that conventional global average pooling (GAP) based models are unreliable due to the patchwise cancellation of true overestimates and underestimates for patchwise inference. To overcome this limitation and reduce overfitting caused by the training on full-resolution images, we propose to employ global sum pooling (GSP) instead of GAP or fully connected (FC) layers at the backend of a convolutional network. Although computationally equivalent to GAP, we show through comprehensive experimentation that GSP allows convolutional networks to learn the counting task as a simple linear mapping problem generalized over the input shape and the number of objects present. This generalization capability allows GSP to avoid both patchwise cancellation and overfitting by training on small patches and inference on full-resolution images as a whole. We evaluate our approach on four different aerial image datasets - two car counting datasets (CARPK and COWC), one crowd counting dataset (ShanghaiTech; parts A and B) and one new challenging dataset for wheat spike counting. Our GSP models improve upon the state-of-the-art approaches on all four datasets with a simple architecture. Also, GSP architectures trained with smaller-sized image patches exhibit better localization property due to their focus on learning from smaller regions while training.
updated: Fri Sep 27 2019 04:06:21 GMT+0000 (UTC)
published: Mon May 28 2018 18:33:37 GMT+0000 (UTC)
