arXiv reaDer
勾配ベースの説明のための多様体仮説
The Manifold Hypothesis for Gradient-Based Explanations
勾配ベースの説明アルゴリズムが意味のある説明を提供するのはいつですか?必要な基準を提案します。それらの特徴の帰属は、データ多様体の接空間と整列する必要があります。この仮説の証拠を提供するために、画像多様体の推定と生成を可能にする変分オートエンコーダーに基づくフレームワークを紹介します。 MNIST、EMNIST、CIFAR10、X線肺炎、糖尿病性網膜症の検出など、さまざまなデータセットにわたる実験を通じて、特徴の帰属がデータの接空間と一致するほど、構造化され、説明されることを示します。なる傾向があります。特に、Integrated Gradients、SmoothGrad、Input×Gradientなどの一般的な事後手法によって提供される属性は、生の勾配よりもデータ多様体とより強く一致する傾向があります。結果として、説明アルゴリズムは、説明をデータ多様体に合わせるよう積極的に努力する必要があることをお勧めします。一部には、これは敵対的なトレーニングによって達成できます。これにより、すべてのデータセット間での整合性が向上します。ニューラルネットワークの一般化だけではモデルの勾配とデータ多様体の位置合わせを意味しないことを示しているため、モデルアーキテクチャまたはトレーニングアルゴリズムに何らかの形で調整する必要があります。
When do gradient-based explanation algorithms provide meaningful explanations? We propose a necessary criterion: their feature attributions need to be aligned with the tangent space of the data manifold. To provide evidence for this hypothesis, we introduce a framework based on variational autoencoders that allows to estimate and generate image manifolds. Through experiments across a range of different datasets -- MNIST, EMNIST, CIFAR10, X-ray pneumonia and Diabetic Retinopathy detection -- we demonstrate that the more a feature attribution is aligned with the tangent space of the data, the more structured and explanatory it tends to be. In particular, the attributions provided by popular post-hoc methods such as Integrated Gradients, SmoothGrad and Input × Gradient tend to be more strongly aligned with the data manifold than the raw gradient. As a consequence, we suggest that explanation algorithms should actively strive to align their explanations with the data manifold. In part, this can be achieved by adversarial training, which leads to better alignment across all datasets. Some form of adjustment to the model architecture or training algorithm is necessary, since we show that generalization of neural networks alone does not imply the alignment of model gradients with the data manifold.
updated: Wed Jun 15 2022 08:49:24 GMT+0000 (UTC)
published: Wed Jun 15 2022 08:49:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト