最先端のディープ ニューラル ネットワークは、セマンティック画像セグメンテーションを含む幅広いタスクにおいて非常に強力であることが証明されています。ただし、これらのネットワークは、敵対的な攻撃、つまり入力画像に追加される知覚できない摂動に対して脆弱であり、誤った予測を引き起こします。これは、自動運転などの安全性が重要なアプリケーションでは危険です。画像分類タスクについては敵対的な例と防御戦略がよく研究されていますが、セマンティック セグメンテーションの文脈では研究は限られています。しかし、最初の研究では、セグメンテーションの結果が敵対的な攻撃によって大きく歪められる可能性があることを示しています。この研究では、セマンティック セグメンテーションにおける敵対的攻撃を検出するための不確実性ベースの方法を紹介します。この特性を使用して 2 つのケースを区別することにより、出力分布のエントロピーによって捕捉された不確実性が、クリーンな画像と摂動された画像で異なる動作をすることが観察されます。私たちの方法は軽量かつ後処理方式で機能します。つまり、モデルを変更したり、敵対的な例を生成するために使用されるプロセスの知識を必要としません。徹底的な実証分析により、複数の種類の敵対的攻撃にわたって乱れた画像を検出するアプローチの能力を実証します。
State-of-the-art deep neural networks have proven to be highly powerful in a broad range of tasks, including semantic image segmentation. However, these networks are vulnerable against adversarial attacks, i.e., non-perceptible perturbations added to the input image causing incorrect predictions, which is hazardous in safety-critical applications like automated driving. Adversarial examples and defense strategies are well studied for the image classification task, while there has been limited research in the context of semantic segmentation. First works however show that the segmentation outcome can be severely distorted by adversarial attacks. In this work, we introduce an uncertainty-based method for the detection of adversarial attacks in semantic segmentation. We observe that uncertainty as for example captured by the entropy of the output distribution behaves differently on clean and perturbed images using this property to distinguish between the two cases. Our method works in a light-weight and post-processing manner, i.e., we do not modify the model or need knowledge of the process used for generating adversarial examples. In a thorough empirical analysis, we demonstrate the ability of our approach to detect perturbed images across multiple types of adversarial attacks.