Embedding Deep Networks into Visual Explanations
この論文では、深いネットワークによって行われた予測を説明するために、新しい説明ニューラルネットワーク(XNN)を提案します。 XNNは、深層ネットワーク層の高次元活性化ベクトルの低次元説明空間への非線形埋め込みを学習することで機能します。つまり、元の深層学習予測は、説明ネットワークによって抽出されたいくつかの概念から構築できます。次に、人間がそのような概念を視覚化して、ディープネットワークが意思決定に使用している高レベルの概念について学習します。説明空間への埋め込みを学習するためのスパース再構成オートエンコーダ(SRAE)と呼ばれるアルゴリズムを提案します。 SRAEは、忠実さを保ちながら、元の特徴空間の一部を再構築することを目的としています。プルアウェイ項がSRAEに適用され、説明スペースのベースが互いにより直交するようになります。次に、説明スペースの機能を人間が理解できるように、視覚化システムが導入されます。提案された方法は、画像分類タスクにおけるCNNモデルを説明するために適用されます。提案されたアプローチが単一の顕著性マップのベースラインを上回り、困難な分類タスクでの人間のパフォーマンスを向上させることを示す人間の研究を実施しました。また、人間の関与なしに説明のパフォーマンスを定量的に評価するために、いくつかの新しいメトリックが導入されています。
In this paper, we propose a novel Explanation Neural Network (XNN) to explain the predictions made by a deep network. The XNN works by learning a nonlinear embedding of a high-dimensional activation vector of a deep network layer into a low-dimensional explanation space while retaining faithfulness i.e., the original deep learning predictions can be constructed from the few concepts extracted by our explanation network. We then visualize such concepts for human to learn about the high-level concepts that the deep network is using to make decisions. We propose an algorithm called Sparse Reconstruction Autoencoder (SRAE) for learning the embedding to the explanation space. SRAE aims to reconstruct part of the original feature space while retaining faithfulness. A pull-away term is applied to SRAE to make the bases of the explanation space more orthogonal to each other. A visualization system is then introduced for human understanding of the features in the explanation space. The proposed method is applied to explain CNN models in image classification tasks. We conducted a human study, which shows that the proposed approach outperforms single saliency map baselines, and improves human performance on a difficult classification tasks. Also, several novel metrics are introduced to evaluate the performance of explanations quantitatively without human involvement.
updated: Fri Dec 11 2020 09:26:19 GMT+0000 (UTC)
published: Fri Sep 15 2017 18:16:34 GMT+0000 (UTC)
