Exact and Consistent Interpretation for Piecewise Linear Neural Networks: A Closed Form Solution
  ディープニューラルネットワークを搭載した強力なインテリジェントマシンは、金融や医療などのリスクに敏感なドメインで意思決定を行うためのブラックボックスとしてますます導入されています。潜在的なリスクを軽減し、ユーザーとの信頼を構築するには、そのようなマシンがどのように決定を下すかを解釈することが重要です。既存の研究では、隠れたニューロンの分析、事前学習済みモデルの模倣、または局所予測の近似により、事前学習済みのニューラルネットワークを解釈します。ただし、これらの方法は、解釈の正確さと一貫性を保証するものではありません。この記事では、OpenBoxという名前のエレガントな閉形式ソリューションを提案して、Piecewise Linear Neural Networks(PLNN)ファミリの正確で一貫した解釈を計算します。主な考え方は、最初にPLNNを数学的に同等な線形分類器のセットに変換し、次にその予測を支配する特徴によって各線形分類器を解釈することです。さらに、OpenBoxを適用して、PLNNの解釈可能性を改善する非負のスパース制約の有効性を示します。合成データセットと実世界データセットの両方に関する広範な実験は、解釈の正確さと一貫性を明確に示しています。
Strong intelligent machines powered by deep neural networks are increasingly deployed as black boxes to make decisions in risk-sensitive domains, such as finance and medical. To reduce potential risk and build trust with users, it is critical to interpret how such machines make their decisions. Existing works interpret a pre-trained neural network by analyzing hidden neurons, mimicking pre-trained models or approximating local predictions. However, these methods do not provide a guarantee on the exactness and consistency of their interpretation. In this paper, we propose an elegant closed form solution named OpenBox to compute exact and consistent interpretations for the family of Piecewise Linear Neural Networks (PLNN). The major idea is to first transform a PLNN into a mathematically equivalent set of linear classifiers, then interpret each linear classifier by the features that dominate its prediction. We further apply OpenBox to demonstrate the effectiveness of non-negative and sparse constraints on improving the interpretability of PLNNs. The extensive experiments on both synthetic and real world data sets clearly demonstrate the exactness and consistency of our interpretation.
updated: Thu Sep 12 2019 17:21:14 GMT+0000 (UTC)
published: Sat Feb 17 2018 16:47:32 GMT+0000 (UTC)
