arXiv reaDer
境界属性は通常の(ベクトル)属性を提供します
Boundary Attributions Provide Normal (Vector) Attributions
ディープニューラルネットワーク(DNN)の説明に関する最近の作業は、モデルの出力スコアを入力特徴に帰属させることに焦点を当てています。ただし、分類の問題に関しては、より基本的な問題は、各機能が、入力インスタンスを特定のクラスに分類するというモデルの決定にどの程度寄与するかということです。私たちの最初の貢献は、この質問に対処するための新しい説明方法である境界帰属です。 BAは、活性化領域の形状の理解を活用します。具体的には、ターゲット入力のローカル決定境界の法線ベクトルを計算(および集約)する必要があります。 2番目の貢献は、ネットワークの敵対的な堅牢性と勾配ベースの説明の品質を結び付ける一連の分析結果です。具体的には、ReLUネットワークの2つの定理を証明します。ランダム化された平滑化ネットワークまたは堅牢にトレーニングされたネットワークのBAは、標準ネットワークよりも非境界属性法にはるかに近いです。これらの分析により、ユーザーは高品質の説明のためにモデルの堅牢性を向上させることができます。最後に、ImageNetで提案された方法を評価し、BAが非境界のものと比較してより集中的で鮮明な視覚化を生成することを示します。さらに、必要に応じて、この方法がベースライン入力に対する帰属の感度を下げるのにも役立つことを示します。
Recent work on explaining Deep Neural Networks (DNNs) focuses on attributing the model's output scores to input features. However, when it comes to classification problems, a more fundamental question is how much does each feature contributes to the model's decision to classify an input instance into a specific class. Our first contribution is Boundary Attribution, a new explanation method to address this question. BA leverages an understanding of the geometry of activation regions. Specifically, they involve computing (and aggregating) normal vectors of the local decision boundaries for the target input. Our second contribution is a set of analytical results connecting the adversarial robustness of the network and the quality of gradient-based explanations. Specifically, we prove two theorems for ReLU networks: BA of randomized smoothed networks or robustly trained networks is much closer to non-boundary attribution methods than that in standard networks. These analytics encourage users to improve model robustness for high-quality explanations. Finally, we evaluate the proposed methods on ImageNet and show BAs produce more concentrated and sharper visualizations compared with non-boundary ones. We further demonstrate that our method also helps to reduce the sensitivity of attributions to the baseline input if one is required.
updated: Sat Mar 20 2021 22:36:39 GMT+0000 (UTC)
published: Sat Mar 20 2021 22:36:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト