arXiv reaDer
モデルの解釈可能性と安定性を活用してモデルの堅牢性を高める
Leveraging Model Interpretability and Stability to increase Model Robustness
 最先端のディープニューラルネットワーク(DNN)は、画像分類タスクで人間レベル以上の精度を達成できるようになりました。しかし、それらの卓越したパフォーマンスは、複雑な推論メカニズムを備えており、困難な解釈が可能なモデルとなっています。 DNNの基礎となる予測ルールを理解するために、Dhamdhere et al。コンダクタンスと呼ばれるメトリックの形式で、DNN予測スコアをその隠れ単位寄与の合計として分類する解釈可能性の方法を提案します。 DNNの隠れユニットのコンダクタンスを分析すると、間違った予測と正しい予測が推測される方法に違いがあることがわかります。私たちは、誤った正しい予測のための隠れたユニットの活性化の識別可能なパターンを識別します。次に、DNNの上部にあるバイナリ分類の形式のエラー検出器を使用して、隠れたユニットのアクティブ化に基づいてDNNの誤った予測と修正された予測を自動的に判別します。検出された誤った予測は破棄され、モデルの堅牢性が向上します。 DNNの誤った予測と正しい予測を区別するための別のアプローチがWang et al。によって提案されています。その方法は、DNNが誤った予測をするように導く入力サンプルは、正しく分類された入力サンプルよりもDNNの重みの変化に対して安定性が低いという前提に基づいています。私たちの研究では、両方の方法を比較し、それらを組み合わせることで、誤った予測をより適切に検出できることを発見しました。
State of the art Deep Neural Networks (DNN) can now achieve above human level accuracy on image classification tasks. However their outstanding performances come along with a complex inference mechanism making them arduously interpretable models. In order to understand the underlying prediction rules of DNNs, Dhamdhere et al. propose an interpretability method to break down a DNN prediction score as sum of its hidden unit contributions, in the form of a metric called conductance. Analyzing conductances of DNN hidden units, we find out there is a difference in how wrong and correct predictions are inferred. We identify distinguishable patterns of hidden unit activations for wrong and correct predictions. We then use an error detector in the form of a binary classifier on top of the DNN to automatically discriminate wrong and correct predictions of the DNN based on their hidden unit activations. Detected wrong predictions are discarded, increasing the model robustness. A different approach to distinguish wrong and correct predictions of DNNs is proposed by Wang et al. whose method is based on the premise that input samples leading a DNN into making wrong predictions are less stable to the DNN weight changes than correctly classified input samples. In our study, we compare both methods and find out by combining them that better detection of wrong predictions can be achieved.
updated: Tue Nov 05 2019 23:23:04 GMT+0000 (UTC)
published: Tue Oct 01 2019 13:51:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト