arXiv reaDer
注意の再考-忠実度違反テストによるモデルの説明可能性
Rethinking Attention-Model Explainability through Faithfulness Violation Test
注意メカニズムは、深いモデルの説明可能性を支配しています。それらは、入力全体に確率分布を生成します。これは、特徴重要度の指標と広く見なされています。ただし、このペーパーでは、注意の説明に1つの重大な制限があります。それは、機能の影響の極性を特定する際の弱点です。これはどういうわけか誤解を招く可能性があります。注意の重みが高い機能は、モデルの予測に忠実に貢献しない可能性があります。代わりに、抑制効果を課すことができます。この発見により、Attentio \ odotGradientやLRPベースの注意の説明など、現在の注意ベースの手法の説明可能性について考察します。最初に、説明の重みと衝撃の極性の間の一貫性を測定するための実用的な診断方法(以下、忠実度違反テスト)を提案します。次に、広範な実験を通じて、テストされたほとんどの説明方法が、忠実度違反の問題、特に生の注意によって予期せず妨げられていることを示します。違反の問題に影響を与える要因に関する経験的分析は、注意モデルに説明方法を採用するための有用な観察をさらに提供します。
Attention mechanisms are dominating the explainability of deep models. They produce probability distributions over the input, which are widely deemed as feature-importance indicators. However, in this paper, we find one critical limitation in attention explanations: weakness in identifying the polarity of feature impact. This would be somehow misleading -- features with higher attention weights may not faithfully contribute to model predictions; instead, they can impose suppression effects. With this finding, we reflect on the explainability of current attention-based techniques, such as Attentio\odotGradient and LRP-based attention explanations. We first propose an actionable diagnostic methodology (henceforth faithfulness violation test) to measure the consistency between explanation weights and the impact polarity. Through the extensive experiments, we then show that most tested explanation methods are unexpectedly hindered by the faithfulness violation issue, especially the raw attention. Empirical analyses on the factors affecting violation issues further provide useful observations for adopting explanation methods in attention models.
updated: Tue Jul 05 2022 06:42:28 GMT+0000 (UTC)
published: Fri Jan 28 2022 13:42:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト