画像内の繰り返しオブジェクトをカウントしてローカライズする必要性は、生物学的顕微鏡検査、生産ライン検査、監視記録分析などのさまざまなシナリオで発生します。教師あり畳み込みニューラルネットワーク(CNN)を使用すると、大規模なクラス固有のデータセットでトレーニングしたときに、正確なオブジェクト検出が実現します。このアプローチでのラベル付けの努力は、一意のオブジェクトクラスのいくつかの画像でカウントが必要な場合には効果がありません。事前にトレーニングされた分類子が利用できないと仮定して、単一画像シナリオで繰り返しオブジェクトをカウントおよびローカライズするための新しい方法を提示します。私たちの方法は、数回の能動学習の反復で入力画像から注意深く収集されたラベルの小さなセットに対してCNNをトレーニングします。各反復で、ネットワークの潜在空間が分析され、クラス内の多様体を可能な限り徹底的にサンプリングし、冗長なラベルを回避するように努める最小限のユーザークエリが抽出されます。既存のユーザー支援のカウント方法と比較して、アクティブラーニングの反復は、カウントとローカライズの精度、ユーザーのマウスクリック数、および実行時間の点で最先端のパフォーマンスを実現します。この評価は、さまざまな照明条件とオクルージョン条件を使用した幅広い画像クラスでの大規模なユーザー調査を通じて実施されました。
The need to count and localize repeating objects in an image arises in different scenarios, such as biological microscopy studies, production lines inspection, and surveillance recordings analysis. The use of supervised Convoutional Neural Networks (CNNs) achieves accurate object detection when trained over large class-specific datasets. The labeling effort in this approach does not pay-off when the counting is required over few images of a unique object class. We present a new method for counting and localizing repeating objects in single-image scenarios, assuming no pre-trained classifier is available. Our method trains a CNN over a small set of labels carefully collected from the input image in few active-learning iterations. At each iteration, the latent space of the network is analyzed to extract a minimal number of user-queries that strives to both sample the in-class manifold as thoroughly as possible as well as avoid redundant labels. Compared with existing user-assisted counting methods, our active-learning iterations achieve state-of-the-art performance in terms of counting and localizing accuracy, number of user mouse clicks, and running-time. This evaluation was performed through a large user study over a wide range of image classes with diverse conditions of illumination and occlusions.