画像レベルのラベルを使用して、クラスラベルとオブジェクトの位置の両方を識別することを目的としているため、最近、弱監視オブジェクトのローカリゼーションが注目を集めています。以前のほとんどの方法では、最高のアクティベーションソースに対応するアクティベーションマップを使用します。最も確率の高いクラスの活性化マップを1つだけ利用すると、多くの場合、限られた領域にバイアスがかけられたり、背景領域が強調表示されることさえあります。これらの制限を解決するために、組み合わせクラスアクティベーションマップ(CCAM)という名前のアクティベーションマップを使用することを提案します。これは、最高確率クラスから最低確率クラスまでのアクティベーションマップの線形結合です。ローカライズにCCAMを使用することにより、背景領域を抑制して、前景オブジェクトをより正確に強調表示できるようにします。さらに、関連するオブジェクト領域をローカライズするための空間的関係を考慮するネットワークアーキテクチャを設計します。具体的には、低レベルと高レベルの両方の層で、非ローカルモジュールを既存のベースネットワークに統合します。非ローカルの組み合わせクラスアクティベーションマップ(NL-CCAM)という名前の最終モデルは、ILSVRC 2016やCUB-200-2011などの代表的なオブジェクトローカリゼーションベンチマークで従来の方法と比較して優れたパフォーマンスを実現します。さらに、提案された方法が他のデータセットを視覚化することにより一般化の大きな能力を持っていることを示します。
Weakly supervised object localization has recently attracted attention since it aims to identify both class labels and locations of objects by using image-level labels. Most previous methods utilize the activation map corresponding to the highest activation source. Exploiting only one activation map of the highest probability class is often biased into limited regions or sometimes even highlights background regions. To resolve these limitations, we propose to use activation maps, named combinational class activation maps (CCAM), which are linear combinations of activation maps from the highest to the lowest probability class. By using CCAM for localization, we suppress background regions to help highlighting foreground objects more accurately. In addition, we design the network architecture to consider spatial relationships for localizing relevant object regions. Specifically, we integrate non-local modules into an existing base network at both low- and high-level layers. Our final model, named non-local combinational class activation maps (NL-CCAM), obtains superior performance compared to previous methods on representative object localization benchmarks including ILSVRC 2016 and CUB-200-2011. Furthermore, we show that the proposed method has a great capability of generalization by visualizing other datasets.