ディープニューラルネットワークは、敵対的な攻撃アルゴリズムを使用して、だまされやすいことが示されています。敵対的なパッチなどの実用的な方法は、誤分類を引き起こすのに非常に効果的であることが示されています。ただし、これらのパッチは標準のネットワーク解釈アルゴリズムを使用して強調表示されているため、攻撃者の身元が明らかになります。予測を欺くだけでなく、予測の原因に関する解釈を変更する敵対的なパッチを作成できることを示します。さらに、解釈アルゴリズムの精度を測定するための制御された設定として攻撃を紹介します。 Grad-CAM解釈の広範な実験を使用してこれを示し、これは同様にオクルージョンパッチ解釈に移行します。私たちのアルゴリズムは、ネットワークの根本的な意思決定プロセスを真に説明する、より堅牢なネットワーク解釈ツールの開発を促進すると考えています。
Deep neural networks have been shown to be fooled rather easily using adversarial attack algorithms. Practical methods such as adversarial patches have been shown to be extremely effective in causing misclassification. However, these patches are highlighted using standard network interpretation algorithms, thus revealing the identity of the adversary. We show that it is possible to create adversarial patches which not only fool the prediction, but also change what we interpret regarding the cause of the prediction. Moreover, we introduce our attack as a controlled setting to measure the accuracy of interpretation algorithms. We show this using extensive experiments for Grad-CAM interpretation that transfers to occluding patch interpretation as well. We believe our algorithms can facilitate developing more robust network interpretation tools that truly explain the network's underlying decision making process.