たたみ込みニューラルネットワーク(CNN)の堅牢性は、敵対的な例、つまり、人間には知覚できないが、モデルが誤って予測される可能性がある適切に設計された摂動として追加された入力のために、重要性を増しています。最近の研究は、敵対的な例のノイズがテクスチャ構造を壊し、最終的に誤った予測につながることを示唆しています。このような敵対的な攻撃の脅威を緩和するために、欠陥のある畳み込み層を標準のCNNに適切に統合することで、テクスチャ情報ではなく形状情報に依存して予測を行う欠陥のある畳み込みネットワークを提案します。欠陥のある畳み込み層には、その活性化が一定の関数になるように設定された欠陥のあるニューロンが含まれています。欠陥のあるニューロンには情報が含まれておらず、空間的に隣接する標準のニューロンとは大きく異なるため、テクスチャの特徴を正確に抽出できず、モデルは形状など、分類のために他の特徴を探す必要があります。提案を正当化する広範な証拠を示し、欠陥のあるCNNが標準のCNNよりもブラックボックス攻撃を防御できることを示しています。特に、敵対的なトレーニングを適用することなく、転送ベースの攻撃に対して最先端のパフォーマンスを実現します。
Robustness of convolutional neural networks (CNNs) has gained in importance on account of adversarial examples, i.e., inputs added as well-designed perturbations that are imperceptible to humans but can cause the model to predict incorrectly. Recent research suggests that the noises in adversarial examples break the textural structure, which eventually leads to wrong predictions. To mitigate the threat of such adversarial attacks, we propose defective convolutional networks that make predictions relying less on textural information but more on shape information by properly integrating defective convolutional layers into standard CNNs. The defective convolutional layers contain defective neurons whose activations are set to be a constant function. As defective neurons contain no information and are far different from standard neurons in its spatial neighborhood, the textural features cannot be accurately extracted, and so the model has to seek other features for classification, such as the shape. We show extensive evidence to justify our proposal and demonstrate that defective CNNs can defense against black-box attacks better than standard CNNs. In particular, they achieve state-of-the-art performance against transfer-based attacks without any adversarial training being applied.