arXiv reaDer
信頼性の低いニューラルネットワークの信頼性の高い説明の構築:モデル解釈の局所的な平滑化の視点
Building Reliable Explanations of Unreliable Neural Networks: Locally Smoothing Perspective of Model Interpretation
ニューラルネットワークの予測を確実に説明するための新しい方法を提示します。入力と隣接するデータポイントを考慮して、モデル出力に関連する入力特徴を特定する場合、説明は信頼できると見なされます。私たちの方法は、モデル予測の損失関数における滑らかな風景の仮定に基づいて構築されています:局所的に一貫した損失と勾配プロファイル。この研究で確立された理論的分析は、これらの局所的に滑らかなモデルの説明が、顕著性マップのL1正則化を伴う入力のノイズの多いコピーのバッチを使用して学習されることを示唆しています。広範な実験が分析結果をサポートし、提案された顕著性マップが、自然および敵対的に訓練されたモデルの両方に対して作成された敵対的な例の元のクラスを取得し、以前の方法を大幅に上回っていることを明らかにします。さらに、このような優れたパフォーマンスは、入力のモデル出力と隣接するデータポイントに真に関連する入力機能を識別し、信頼できる説明の要件を満たすこのメソッドの学習機能の結果であることを示しました。
We present a novel method for reliably explaining the predictions of neural networks. We consider an explanation reliable if it identifies input features relevant to the model output by considering the input and the neighboring data points. Our method is built on top of the assumption of smooth landscape in a loss function of the model prediction: locally consistent loss and gradient profile. A theoretical analysis established in this study suggests that those locally smooth model explanations are learned using a batch of noisy copies of the input with the L1 regularization for a saliency map. Extensive experiments support the analysis results, revealing that the proposed saliency maps retrieve the original classes of adversarial examples crafted against both naturally and adversarially trained models, significantly outperforming previous methods. We further demonstrated that such good performance results from the learning capability of this method to identify input features that are truly relevant to the model output of the input and the neighboring data points, fulfilling the requirements of a reliable explanation.
updated: Fri Mar 26 2021 08:52:11 GMT+0000 (UTC)
published: Fri Mar 26 2021 08:52:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト