arXiv reaDer
入力勾配は識別機能を強調していますか?
Do Input Gradients Highlight Discriminative Features?
インスタンス固有のモデル予測を説明しようとする解釈可能性の方法[Simonyanetal。 2014年、Smilkov etal。 2017]は、入力勾配の大きさ(入力に対する損失の勾配)が、予測に関係のない非識別的特徴よりも予測に関連する識別的特徴を強調するという前提に基づいていることがよくあります。この作業では、ベンチマーク画像分類タスクのこの仮説を研究するための評価フレームワークを紹介し、CIFAR-10およびImagenet-10データセットで2つの驚くべき観察を行います。(a)従来の常識に反して、標準モデルの入力勾配(つまり、元のデータでトレーニングされた)実際には、関連する機能よりも関連しない機能を強調表示します。 (b)ただし、敵対的にロバストなモデルの入力勾配(つまり、敵対的に摂動されたデータでトレーニングされたもの)は、無関係な機能よりも関連する機能をはっきりと強調します。入力勾配をよりよく理解するために、合成テストベッドを導入し、直感に反する経験的発見を理論的に正当化します。私たちの観察は、解釈可能性の一般的な仮定を形式化して検証する必要性を動機付けます。一方、評価フレームワークと合成データセットは、インスタンス固有の解釈可能性メソッドを厳密に分析するためのテストベッドとして機能します。
Interpretability methods that seek to explain instance-specific model predictions [Simonyan et al. 2014, Smilkov et al. 2017] are often based on the premise that the magnitude of input-gradient -- gradient of the loss with respect to input -- highlights discriminative features that are relevant for prediction over non-discriminative features that are irrelevant for prediction. In this work, we introduce an evaluation framework to study this hypothesis for benchmark image classification tasks, and make two surprising observations on CIFAR-10 and Imagenet-10 datasets: (a) contrary to conventional wisdom, input gradients of standard models (i.e., trained on the original data) actually highlight irrelevant features over relevant features; (b) however, input gradients of adversarially robust models (i.e., trained on adversarially perturbed data) starkly highlight relevant features over irrelevant features. To better understand input gradients, we introduce a synthetic testbed and theoretically justify our counter-intuitive empirical findings. Our observations motivate the need to formalize and verify common assumptions in interpretability, while our evaluation framework and synthetic dataset serve as a testbed to rigorously analyze instance-specific interpretability methods.
updated: Thu Feb 25 2021 11:04:38 GMT+0000 (UTC)
published: Thu Feb 25 2021 11:04:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト