ディープニューラルネットワークは、さまざまな困難なタスクで顕著な成功を収めています。ただし、このようなネットワークのブラックボックスの性質は、医療などの重要なアプリケーションには受け入れられません。特に、敵対的な例の存在と、信頼性の低い不適切な配信外入力への過剰な一般化により、そのようなネットワークによる決定を説明することは不可能ではないにしても困難になります。この論文では、ディープニューラルネットワークの一般化の基礎となるメカニズムを分析し、敵対的な例に鈍感であり、分布外のサンプルを確実に拒否できる($ n $、$ k $)コンセンサスアルゴリズムを提案します。さらに、コンセンサスアルゴリズムは、複数のトレーニング済みディープニューラルネットワークを使用して分類精度を向上させることができます。ディープニューラルネットワークの複雑さを処理するために、個々のモデルの線形近似をクラスター化し、異なるモデル間で高度に相関するクラスターを識別して、機能の重要性をロバストにキャプチャし、解釈性を向上させます。医療用の正確で解釈可能な予測モデルを構築することの重要性に動機付けられて、ICUデータセットに関する実験結果は、1年の患者死亡率予測に関するディープニューラルネットワークモデルの予測精度と解釈可能性の両方を向上させるアルゴリズムの有効性を示しています。特に、提案された方法は、ロジスティック回帰などの従来の浅いモデルと同様の解釈可能性を維持しながら、予測精度を大幅に向上させます。
Deep neural networks have achieved remarkable success in various challenging tasks. However, the black-box nature of such networks is not acceptable to critical applications, such as healthcare. In particular, the existence of adversarial examples and their overgeneralization to irrelevant, out-of-distribution inputs with high confidence makes it difficult, if not impossible, to explain decisions by such networks. In this paper, we analyze the underlying mechanism of generalization of deep neural networks and propose an ($n$, $k$) consensus algorithm which is insensitive to adversarial examples and can reliably reject out-of-distribution samples. Furthermore, the consensus algorithm is able to improve classification accuracy by using multiple trained deep neural networks. To handle the complexity of deep neural networks, we cluster linear approximations of individual models and identify highly correlated clusters among different models to capture feature importance robustly, resulting in improved interpretability. Motivated by the importance of building accurate and interpretable prediction models for healthcare, our experimental results on an ICU dataset show the effectiveness of our algorithm in enhancing both the prediction accuracy and the interpretability of deep neural network models on one-year patient mortality prediction. In particular, while the proposed method maintains similar interpretability as conventional shallow models such as logistic regression, it improves the prediction accuracy significantly.