arXiv reaDer
帰属方法を再検討するための統一テイラーフレームワーク
A Unified Taylor Framework for Revisiting Attribution Methods
アトリビューションメソッドは、機械学習モデル、特にディープニューラルネットワークの意思決定プロセスを理解するために、個々の機能に重要度スコアを割り当てることによって開発されました。多くの場合、既存の帰属方法は、経験的な直観とヒューリスティックに基づいています。彼らの理論的根拠、理論的忠実度、および制限についてのより深い理解を提供できる統一されたフレームワークはまだありません。ギャップを埋めるために、説明の忠実度を理論的に特徴付けるテイラーアトリビューションフレームワークを提示します。重要なアイデアは、モデルの動作を1次、高次の独立、および高次のインタラクティブな用語に分解することです。これにより、高次の効果と複雑な機能の相互作用を明確に特定できます。テイラー属性には、3つの望ましいプロパティが提案されています。つまり、モデル近似誤差が低く、独立したインタラクティブな効果を正確に割り当てることができます。さらに、いくつかの一般的な帰属方法は、統一されたテイラー帰属フレームワークの下で数学的に再定式化されています。私たちの理論的な調査は、これらの帰属方法が複雑な機能の相互依存性を含む高次の項を暗黙的に反映していることを示しています。これらの方法の中で、統合勾配は、提案されている3つの望ましい特性を満たす唯一の方法です。テイラーフレームワークを利用して、統合勾配に基づく新しい属性方法が提案されます。実験結果は、提案された方法がモデルの解釈において既存の方法よりも優れていることを示しています。
Attribution methods have been developed to understand the decision making process of machine learning models, especially deep neural networks, by assigning importance scores to individual features. Existing attribution methods often built upon empirical intuitions and heuristics. There still lacks a unified framework that can provide deeper understandings of their rationales, theoretical fidelity, and limitations. To bridge the gap, we present a Taylor attribution framework to theoretically characterize the fidelity of explanations. The key idea is to decompose model behaviors into first-order, high-order independent, and high-order interactive terms, which makes clearer attribution of high-order effects and complex feature interactions. Three desired properties are proposed for Taylor attributions, i.e., low model approximation error, accurate assignment of independent and interactive effects. Moreover, several popular attribution methods are mathematically reformulated under the unified Taylor attribution framework. Our theoretical investigations indicate that these attribution methods implicitly reflect high-order terms involving complex feature interdependencies. Among these methods, Integrated Gradient is the only one satisfying the proposed three desired properties. New attribution methods are proposed based on Integrated Gradient by utilizing the Taylor framework. Experimental results show that the proposed method outperforms the existing ones in model interpretations.
updated: Wed Mar 03 2021 11:38:08 GMT+0000 (UTC)
published: Fri Aug 21 2020 22:07:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト