クラスラベルから正確なピクセルレベルのローカリゼーションを取得することは、弱く監視されたセマンティックセグメンテーションとオブジェクトのローカリゼーションにおける重要なプロセスです。訓練された分類器からのアトリビューションマップは、ピクセルレベルのローカリゼーションを提供するために広く使用されていますが、それらの焦点は、ターゲットオブジェクトの小さな識別領域に制限される傾向があります。 AdvCAMは、最終的なソフトマックスまたはシグモイド層の前に分類器によって生成された分類スコアを増やすために操作される画像の帰属マップです。この操作は反敵対的な方法で実現されるため、元の画像は、敵対的な攻撃で使用される方向とは反対の方向にピクセル勾配に沿って摂動されます。このプロセスは、以前のアトリビューションマップへの貢献が不十分な、識別力がないがクラス関連の機能を強化するため、結果のAdvCAMはターゲットオブジェクトのより多くの領域を識別します。さらに、ターゲットオブジェクトに関係のない領域の誤った帰属と、ターゲットオブジェクトの小さな領域への過度の帰属の集中を防ぐ新しい正則化手順を導入します。私たちの方法は、PASCALVOC2012とMSCOCO2014の両方のデータセットで、弱く半教師ありのセマンティックセグメンテーションで新しい最先端のパフォーマンスを実現します。弱く監視されたオブジェクトのローカリゼーションでは、CUB-200-2011およびImageNet-1Kデータセットで新しい最先端のパフォーマンスを実現します。
Obtaining accurate pixel-level localization from class labels is a crucial process in weakly supervised semantic segmentation and object localization. Attribution maps from a trained classifier are widely used to provide pixel-level localization, but their focus tends to be restricted to a small discriminative region of the target object. An AdvCAM is an attribution map of an image that is manipulated to increase the classification score produced by a classifier before the final softmax or sigmoid layer. This manipulation is realized in an anti-adversarial manner, so that the original image is perturbed along pixel gradients in directions opposite to those used in an adversarial attack. This process enhances non-discriminative yet class-relevant features, which make an insufficient contribution to previous attribution maps, so that the resulting AdvCAM identifies more regions of the target object. In addition, we introduce a new regularization procedure that inhibits the incorrect attribution of regions unrelated to the target object and the excessive concentration of attributions on a small region of the target object. Our method achieves a new state-of-the-art performance in weakly and semi-supervised semantic segmentation, on both the PASCAL VOC 2012 and MS COCO 2014 datasets. In weakly supervised object localization, it achieves a new state-of-the-art performance on the CUB-200-2011 and ImageNet-1K datasets.