arXiv reaDer
ディープネットワークをだまして説明する攻撃
Attack to Fool and Explain Deep Networks
深い視覚モデルは、入力に対する敵対的な摂動の影響を受けやすくなっています。これらの信号は注意深く作成されていますが、それでも人間にはノイズのようなパターンが表示されます。この観察は、深い視覚的表現が人間の知覚と一致していないという議論につながっています。私たちは、敵対的な摂動における人間に意味のあるパターンの証拠を提供することによって反論します。まず、ネットワークをだまして、オブジェクトのカテゴリ全体(ソースクラス)をターゲットラベルと混同する攻撃を提案します。私たちの攻撃はまた、非ソースクラスからのサンプルによる意図しないフールを制限し、それによってネットワークフールの人間定義のセマンティック概念を制限します。提案された攻撃は、摂動における規則的な幾何学的パターンの出現につながるだけでなく、深いモデルの決定境界に関する洞察に満ちた情報も明らかにすることを示します。この現象をさらに調査し、攻撃の「敵対的」目的を変更して、深い視覚的表現を「説明」するためのツールとして使用します。私たちの方法によって計算された摂動の注意深いチャネリングと投影によって、人間が定義した意味論的概念のモデルの理解を視覚化できることを示します。最後に、摂動の説明可能性を利用して、敵対的に堅牢な「分類子」を攻撃することにより、画像生成、修復、インタラクティブな画像操作を実行します。全体として、私たちの主な貢献は、新しい実用的な敵対的攻撃であり、その後、ビジュアルモデル。この記事はまた、複数の興味深いアプリケーションを使用して、敵対的な目的を超えて攻撃の有用性を確立するという点で二次的な貢献をしています。
Deep visual models are susceptible to adversarial perturbations to inputs. Although these signals are carefully crafted, they still appear noise-like patterns to humans. This observation has led to the argument that deep visual representation is misaligned with human perception. We counter-argue by providing evidence of human-meaningful patterns in adversarial perturbations. We first propose an attack that fools a network to confuse a whole category of objects (source class) with a target label. Our attack also limits the unintended fooling by samples from non-sources classes, thereby circumscribing human-defined semantic notions for network fooling. We show that the proposed attack not only leads to the emergence of regular geometric patterns in the perturbations, but also reveals insightful information about the decision boundaries of deep models. Exploring this phenomenon further, we alter the `adversarial' objective of our attack to use it as a tool to `explain' deep visual representation. We show that by careful channeling and projection of the perturbations computed by our method, we can visualize a model's understanding of human-defined semantic notions. Finally, we exploit the explanability properties of our perturbations to perform image generation, inpainting and interactive image manipulation by attacking adversarialy robust `classifiers'.In all, our major contribution is a novel pragmatic adversarial attack that is subsequently transformed into a tool to interpret the visual models. The article also makes secondary contributions in terms of establishing the utility of our attack beyond the adversarial objective with multiple interesting applications.
updated: Sun Jun 20 2021 03:07:36 GMT+0000 (UTC)
published: Sun Jun 20 2021 03:07:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト