arXiv reaDer
モデルの解釈可能性のための勾配ベースの帰属方法の役割の再考
Rethinking the Role of Gradient-Based Attribution Methods for Model Interpretability
識別可能なディープニューラルネットワークの解釈可能性の現在の方法は、通常、モデルの入力勾配、つまり入力に対する出力ロジットの勾配に依存しています。一般的な仮定は、これらの入力勾配には、モデルの識別能力であるp_θ(y \ mid x)に関する情報が含まれているため、解釈可能性のためにそれらを使用することを正当化するというものです。ただし、この作業では、識別関数を変更せずに、softmaxのシフト不変性の結果としてこれらの入力勾配を任意に操作できることを示します。これは未解決の質問を残します:入力勾配が任意である可能性がある場合、なぜそれらは標準モデルで高度に構造化され説明的であるのですか?標準のソフトマックスベースの分類器のロジットをデータ分布の正規化されていない対数密度として再解釈することによってこれを調査し、入力勾配がクラス条件付き密度モデルの勾配として表示できることを示しますp_θ(x \ mid y)暗黙的識別モデル内。これにより、入力勾配の高度に構造化された説明的な性質は、このクラス条件付きモデルp_θ(x \ mid y)とグラウンドトゥルースデータ分布p_data(x \ mid y)の整合に起因する可能性があるという仮説が導き出されます。 。勾配の説明に対する密度の整列の影響を研究することにより、この仮説をテストします。このアラインメントを実現するために、スコアマッチングを使用し、このアルゴリズムの新しい近似を提案して、大規模モデルのトレーニングを可能にします。私たちの実験は、暗黙の密度モデルとデータ分布のアラインメントを改善すると、勾配構造と説明力が向上する一方で、このアラインメントを減らすと逆の効果があることを示しています。全体として、入力勾配が暗黙の生成モデルに関する情報を取得するという私たちの発見は、識別モデルを解釈するためのそれらの使用を再考する必要があることを意味します。
Current methods for the interpretability of discriminative deep neural networks commonly rely on the model's input-gradients, i.e., the gradients of the output logits w.r.t. the inputs. The common assumption is that these input-gradients contain information regarding p_θ ( y \mid x), the model's discriminative capabilities, thus justifying their use for interpretability. However, in this work we show that these input-gradients can be arbitrarily manipulated as a consequence of the shift-invariance of softmax without changing the discriminative function. This leaves an open question: if input-gradients can be arbitrary, why are they highly structured and explanatory in standard models? We investigate this by re-interpreting the logits of standard softmax-based classifiers as unnormalized log-densities of the data distribution and show that input-gradients can be viewed as gradients of a class-conditional density model p_θ(x \mid y) implicit within the discriminative model. This leads us to hypothesize that the highly structured and explanatory nature of input-gradients may be due to the alignment of this class-conditional model p_θ(x \mid y) with that of the ground truth data distribution p_data (x \mid y). We test this hypothesis by studying the effect of density alignment on gradient explanations. To achieve this alignment we use score-matching, and propose novel approximations to this algorithm to enable training large-scale models. Our experiments show that improving the alignment of the implicit density model with the data distribution enhances gradient structure and explanatory power while reducing this alignment has the opposite effect. Overall, our finding that input-gradients capture information regarding an implicit generative model implies that we need to re-think their use for interpreting discriminative models.
updated: Wed Mar 03 2021 09:42:58 GMT+0000 (UTC)
published: Tue Jun 16 2020 13:17:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト