大規模なクラスのCNNベースのモデルから意思決定の「視覚的説明」を作成し、それらをより透明にする手法を提案します。アプローチ-Gradient-weighted Class Activation Mapping(Grad-CAM)は、ターゲットコンセプトのグラデーションを使用して最終畳み込み層に流れ込み、コンセプトを予測するために画像内の重要な領域を強調する粗いローカリゼーションマップを生成します。 Grad-CAMは、さまざまなCNNモデルファミリに適用できます。(1)完全に接続されたレイヤーを持つCNN、(2)構造化出力に使用されるCNN、(3)マルチモーダル入力または強化学習を伴うタスクで使用されるCNNアーキテクチャの変更または再トレーニング。 Grad-CAMをきめの細かい視覚化と組み合わせて、高解像度のクラス識別視覚化を作成し、ResNetベースのアーキテクチャを含む市販の画像分類、キャプション、および視覚的質問応答(VQA)モデルに適用します。画像分類モデルのコンテキストでは、視覚化は(a)故障モードへの洞察を提供し、(b)敵対画像に対してロバストであり、(c)ローカリゼーションで以前の方法よりも優れています、(d)基礎となるモデルにより忠実ですe)データセットのバイアスを特定することにより、一般化の達成を支援する。キャプションとVQAについては、非注意ベースのモデルでも入力をローカライズできることを示します。 Grad-CAMを使用して重要なニューロンを識別し、ニューロン名と組み合わせてモデル決定のテキスト説明を提供する方法を考案します。最後に、Grad-CAMがユーザーがモデルからの予測に適切な信頼を確立するのを助けるかどうかを測定する人間の研究を設計および実施し、Grad-CAMが未熟なユーザーが「より弱い」ノードと「より弱い」ノードを同一に識別できるようにする予測。コードはhttps://github.com/ramprs/grad-cam/で入手でき、http://gradcam.cloudcv.orgのデモとyoutu.be/COjUB9Izk6Eのビデオも利用できます。
We propose a technique for producing "visual explanations" for decisions from a large class of CNN-based models, making them more transparent. Our approach - Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept, flowing into the final convolutional layer to produce a coarse localization map highlighting important regions in the image for predicting the concept. Grad-CAM is applicable to a wide variety of CNN model-families: (1) CNNs with fully-connected layers, (2) CNNs used for structured outputs, (3) CNNs used in tasks with multimodal inputs or reinforcement learning, without any architectural changes or re-training. We combine Grad-CAM with fine-grained visualizations to create a high-resolution class-discriminative visualization and apply it to off-the-shelf image classification, captioning, and visual question answering (VQA) models, including ResNet-based architectures. In the context of image classification models, our visualizations (a) lend insights into their failure modes, (b) are robust to adversarial images, (c) outperform previous methods on localization, (d) are more faithful to the underlying model and (e) help achieve generalization by identifying dataset bias. For captioning and VQA, we show that even non-attention based models can localize inputs. We devise a way to identify important neurons through Grad-CAM and combine it with neuron names to provide textual explanations for model decisions. Finally, we design and conduct human studies to measure if Grad-CAM helps users establish appropriate trust in predictions from models and show that Grad-CAM helps untrained users successfully discern a 'stronger' nodel from a 'weaker' one even when both make identical predictions. Our code is available at https://github.com/ramprs/grad-cam/, along with a demo at http://gradcam.cloudcv.org, and a video at youtu.be/COjUB9Izk6E.