帰属の問題は、モデルの出力を担当する入力の部分を識別することに関係しています。属性法の重要なファミリは、入力に適用された摂動の影響の測定に基づいています。この論文では、摂動解析に対する既存のアプローチの欠点のいくつかを議論し、理論的に根拠があり解釈可能な極値摂動の概念を導入することでそれらに対処します。また、新しい面積制約や滑らかな摂動のパラメトリックファミリなど、極値摂動を計算するためのいくつかの技術革新を導入し、最適化問題からすべての調整可能なハイパーパラメーターを削除できるようにします。摂動の影響をその面積の関数として分析し、刺激下の深層ニューラルネットワークの空間特性に対する優れた感度を実証します。また、ネットワークの中間層に摂動解析を拡張します。このアプリケーションを使用すると、分類に必要な顕著なチャネルを識別できます。これは、機能反転を使用して視覚化すると、モデルの動作を解明するために使用できます。最後に、PyTorch上に構築された解釈可能性ライブラリであるTorchRayを紹介します。
The problem of attribution is concerned with identifying the parts of an input that are responsible for a model's output. An important family of attribution methods is based on measuring the effect of perturbations applied to the input. In this paper, we discuss some of the shortcomings of existing approaches to perturbation analysis and address them by introducing the concept of extremal perturbations, which are theoretically grounded and interpretable. We also introduce a number of technical innovations to compute extremal perturbations, including a new area constraint and a parametric family of smooth perturbations, which allow us to remove all tunable hyper-parameters from the optimization problem. We analyze the effect of perturbations as a function of their area, demonstrating excellent sensitivity to the spatial properties of the deep neural network under stimulation. We also extend perturbation analysis to the intermediate layers of a network. This application allows us to identify the salient channels necessary for classification, which, when visualized using feature inversion, can be used to elucidate model behavior. Lastly, we introduce TorchRay, an interpretability library built on PyTorch.