ディープモデルは、画像分類やオブジェクト検出など、多くのコンピュータービジョンタスクの最新技術です。ただし、深いモデルは敵対的な例に対して脆弱であることが示されています。ワンホットエンコーディングがこの脆弱性にどのように直接寄与するかを強調し、広く使用されているが非常に脆弱なマッピングから脱却することを提案します。異なる出力エンコーディング、多方向エンコーディングを活用することにより、ソースモデルとターゲットモデルを無相関化し、ターゲットモデルをより安全にすることを実証します。私たちのアプローチは、敵が攻撃を生成するための有用な勾配を見つけることをより困難にします。 4つのベンチマークデータセット(MNIST、CIFAR-10、CIFAR-100、およびSVHN)に対するブラックボックスおよびホワイトボックス攻撃の堅牢性を示します。私たちのアプローチの強みは、モデルの透かし入れに対する攻撃の形でも示されており、盗まれたモデルを検出する際の課題を引き起こしています。
Deep models are state-of-the-art for many computer vision tasks including image classification and object detection. However, it has been shown that deep models are vulnerable to adversarial examples. We highlight how one-hot encoding directly contributes to this vulnerability and propose breaking away from this widely-used, but highly-vulnerable mapping. We demonstrate that by leveraging a different output encoding, multi-way encoding, we decorrelate source and target models, making target models more secure. Our approach makes it more difficult for adversaries to find useful gradients for generating adversarial attacks. We present robustness for black-box and white-box attacks on four benchmark datasets: MNIST, CIFAR-10, CIFAR-100, and SVHN. The strength of our approach is also presented in the form of an attack for model watermarking, raising challenges in detecting stolen models.