Towards Automatic Concept-based Explanations
  より多くの機械学習(ML)モデルが展開され、重要な決定を下すために広く使用されているため、解釈可能性は研究の重要なトピックになっています。現在の説明方法のほとんどは、機能の重要度スコアを使用して説明を提供し、個々の入力にとって重要な機能を識別します。ただし、このようなサンプルごとの機能重要度スコアを体系的に要約および解釈する方法自体は困難です。この作業では、サンプルごとの機能を超えて、データセット全体に適用される高レベルの人間が理解できる概念を特定する、概念ベースの説明の原則と設計を提案します。視覚的な概念を自動的に抽出する新しいアルゴリズム、ACEを開発します。私たちの体系的な実験は、\ algがニューラルネットワークの予測にとって人間に意味があり、一貫性があり、重要な概念を発見することを示しています。
Interpretability has become an important topic of research as more machine learning (ML) models are deployed and widely used to make important decisions. Most of the current explanation methods provide explanations through feature importance scores, which identify features that are important for each individual input. However, how to systematically summarize and interpret such per sample feature importance scores itself is challenging. In this work, we propose principles and desiderata for \emph{concept based explanation, which goes beyond per-sample features to identify higher-level human-understandable concepts that apply across the entire dataset. We develop a new algorithm, ACE, to automatically extract visual concepts. Our systematic experiments demonstrate that \alg discovers concepts that are human-meaningful, coherent and important for the neural network's predictions.
updated: Tue Oct 08 2019 09:28:43 GMT+0000 (UTC)
published: Thu Feb 07 2019 03:18:54 GMT+0000 (UTC)
