ニューラルネットワークの解釈手法が、モデルの微調整ステップとして定義される敵対的なモデル操作によってだまされる可能性があるかどうかを尋ねます。これは、VGG19、ResNet50、DenseNet121などの元のモデルの精度を損なうことなく説明を根本的に変更することを目的としています。微調整用の目的関数のペナルティ項に解釈結果を直接組み込むことにより、LRP、Grad-CAM、SimpleGradなどの最新の顕著性マップベースのインタープリターが簡単にだまされる可能性があることを示します。モデルを操作します。パッシブとアクティブの2種類のだまし方を提案し、そのようなだましが検証セット全体にうまく一般化されることと、他の解釈方法に移行することを示します。私たちの結果は、だまされた説明を視覚的に示し、元の説明からの逸脱を測定する定量的指標を報告することによって検証されます。敵対的なモデル操作に関するニューラルネットワーク解釈方法の安定性は、堅牢で信頼性の高いニューラルネットワーク解釈方法の開発をチェックする重要な基準であると主張します。
We ask whether the neural network interpretation methods can be fooled via adversarial model manipulation, which is defined as a model fine-tuning step that aims to radically alter the explanations without hurting the accuracy of the original models, e.g., VGG19, ResNet50, and DenseNet121. By incorporating the interpretation results directly in the penalty term of the objective function for fine-tuning, we show that the state-of-the-art saliency map based interpreters, e.g., LRP, Grad-CAM, and SimpleGrad, can be easily fooled with our model manipulation. We propose two types of fooling, Passive and Active, and demonstrate such foolings generalize well to the entire validation set as well as transfer to other interpretation methods. Our results are validated by both visually showing the fooled explanations and reporting quantitative metrics that measure the deviations from the original explanations. We claim that the stability of neural network interpretation method with respect to our adversarial model manipulation is an important criterion to check for developing robust and reliable neural network interpretation method.