Multi-scale discriminative Region Discovery for Weakly-Supervised Object Localization
  画像内の監視が弱いオブジェクトの位置を特定することは、コンピュータービジョンコミュニティの研究の重要な問題です。既存のWeakly-Supervised Object Localization(WSOL)アプローチの多くは、Deep Convolutional Neural Networkによって取得された特徴マップ(活性化マップ)を使用して最も識別可能な領域を推定することにより、この問題に取り組んでいます。配置すること。ただし、1つの画像に同じタイプの複数のオブジェクトまたは小さなオブジェクトが含まれている場合、アクティベーションマップはしばしば異なるローカル最大応答または比較的弱い応答を表示します。本稿では、より統合されたオブジェクトだけでなく、画像レベルのクラスラベルのみで可能な限り多くのオブジェクトをローカライズするための、シンプルで効果的なマルチスケール識別領域検出方法を提案します。 CNNのさまざまな畳み込み層に流れる勾配の重みは、最後の畳み込み層のそれだけを考慮した以前の方法とは異なるこの方法の入力として使用されます。オブジェクトのローカリゼーションのタスクのためにより識別領域をマイニングするために、勾配重みマップからの複数の局所的最大値が活用されて、平行なスライディングウィンドウを持つローカリゼーションマップが生成されます。さらに、異なる畳み込み層からのマルチスケールローカリゼーションマップが融合されて、最終結果が生成されます。 ILSVRC 2016、CUB-200-2011、およびPASCAL VOC 2012データセットのVGGnetを基盤として、提案された方法を評価します。 ILSVRC 2016では、提案された方法により、トップ1のローカリゼーションエラーが48.65 \%になり、以前の結果より2.75 \%優れています。 PASCAL VOC 2012で、当社のアプローチは0.43の最高のローカライズ精度を達成します。 CUB-200-2011データセットでも、この方法は競争力のある結果を達成しています。
Localizing objects with weak supervision in an image is a key problem of the research in computer vision community. Many existing Weakly-Supervised Object Localization (WSOL) approaches tackle this problem by estimating the most discriminative regions with feature maps (activation maps) obtained by Deep Convolutional Neural Network, that is, only the objects or parts of them with the most discriminative response will be located. However, the activation maps often display different local maximum responses or relatively weak response when one image contains multiple objects with the same type or small objects. In this paper, we propose a simple yet effective multi-scale discriminative region discovery method to localize not only more integral objects but also as many as possible with only image-level class labels. The gradient weights flowing into different convolutional layers of CNN are taken as the input of our method, which is different from previous methods only considering that of the final convolutional layer. To mine more discriminative regions for the task of object localization, the multiple local maximum from the gradient weight maps are leveraged to generate the localization map with a parallel sliding window. Furthermore, multi-scale localization maps from different convolutional layers are fused to produce the final result. We evaluate the proposed method with the foundation of VGGnet on the ILSVRC 2016, CUB-200-2011 and PASCAL VOC 2012 datasets. On ILSVRC 2016, the proposed method yields the Top-1 localization error of 48.65\%, which outperforms previous results by 2.75\%. On PASCAL VOC 2012, our approach achieve the highest localization accuracy of 0.43. Even for CUB-200-2011 dataset, our method still achieves competitive results.
updated: Tue Sep 24 2019 03:54:38 GMT+0000 (UTC)
published: Tue Sep 24 2019 03:54:38 GMT+0000 (UTC)
