クラス活性化マップ (CAM) に基づく方法は、特徴マップの線形結合を顕著性マップとして使用することにより、畳み込みニューラル ネットワークの予測を解釈するための単純なメカニズムを提供します。対照的に、マスキングベースの方法は、画像空間で直接顕著性マップを最適化するか、追加データで別のネットワークをトレーニングすることによって学習します。この作業では、CAM ベースのアプローチとマスキング ベースのアプローチのアイデアを組み合わせた Opti-CAM を紹介します。顕著性マップは特徴マップの線形結合であり、特定のクラスのマスクされた画像のロジットが最大化されるように、画像ごとに重みが最適化されます。また、アトリビューション手法の最も一般的な 2 つの評価指標の根本的な欠陥も修正します。いくつかのデータセットでは、Opti-CAM は、最も関連性の高い分類メトリックに従って、他の CAM ベースのアプローチよりも大幅に優れています。ローカリゼーションと分類器の解釈可能性が必ずしも一致しないことを裏付ける経験的証拠を提供します。
Methods based on class activation maps (CAM) provide a simple mechanism to interpret predictions of convolutional neural networks by using linear combinations of feature maps as saliency maps. By contrast, masking-based methods optimize a saliency map directly in the image space or learn it by training another network on additional data. In this work we introduce Opti-CAM, combining ideas from CAM-based and masking-based approaches. Our saliency map is a linear combination of feature maps, where weights are optimized per image such that the logit of the masked image for a given class is maximized. We also fix a fundamental flaw in two of the most common evaluation metrics of attribution methods. On several datasets, Opti-CAM largely outperforms other CAM-based approaches according to the most relevant classification metrics. We provide empirical evidence supporting that localization and classifier interpretability are not necessarily aligned.