Grad-CAMなどの事後説明方法により、人間は特定のネットワーク決定に関与する空間領域を検査できます。ただし、そのような説明は、画像変換全体の一貫性など、人間の事前情報と常に一致するとは限らないことが示されています。 Grad-CAMなどの解釈アルゴリズムを前提として、モデルをトレーニングしてより一貫性のある説明を生成するための新しいトレーニング方法を紹介します。目的のモデル解釈のグラウンドトゥルースを取得することは明確に定義されたタスクではないため、対照的な自己監視学習からのアイデアを採用し、埋め込みではなくモデルの解釈に適用します。私たちの方法であるContrastiveGrad-CAMConsistency(CGC)により、同等の分類精度を達成しながら、人間の注釈とより一貫性のあるGrad-CAM解釈ヒートマップが得られることを示します。さらに、私たちの方法は正則化として機能し、限られたデータのきめ細かい分類設定の精度を向上させます。さらに、私たちの方法は注釈に依存しないため、ラベルのないデータをトレーニングに組み込むことができ、モデルのより良い一般化が可能になります。私たちのコードはここから入手できます:https://github.com/UCDvision/CGC
Post-hoc explanation methods, e.g., Grad-CAM, enable humans to inspect the spatial regions responsible for a particular network decision. However, it is shown that such explanations are not always consistent with human priors, such as consistency across image transformations. Given an interpretation algorithm, e.g., Grad-CAM, we introduce a novel training method to train the model to produce more consistent explanations. Since obtaining the ground truth for a desired model interpretation is not a well-defined task, we adopt ideas from contrastive self-supervised learning, and apply them to the interpretations of the model rather than its embeddings. We show that our method, Contrastive Grad-CAM Consistency (CGC), results in Grad-CAM interpretation heatmaps that are more consistent with human annotations while still achieving comparable classification accuracy. Moreover, our method acts as a regularizer and improves the accuracy on limited-data, fine-grained classification settings. In addition, because our method does not rely on annotations, it allows for the incorporation of unlabeled data into training, which enables better generalization of the model. Our code is available here: https://github.com/UCDvision/CGC