過去数年間、畳み込みニューラルネットワーク(CNN)は、幅広いコンピュータービジョンタスクで支配的なニューラルアーキテクチャでした。画像と信号処理の観点から、この成功は少し驚くかもしれません。ほとんどのCNNの固有の空間ピラミッド設計は、基本的な信号処理法、つまりダウンサンプリング操作でのサンプリング定理に明らかに違反しているからです。ただし、不十分なサンプリングはモデルの精度に影響を与えないように思われるため、モデルの堅牢性が注目されるようになるまで、この問題は広く無視されてきました。敵対的な攻撃と分布シフトのコンテキストでの最近の研究[17]は、結局のところ、CNNの脆弱性と不十分なダウンサンプリング操作によって引き起こされるエイリアシングアーティファクトとの間に強い相関関係があることを示しました。このホワイトペーパーでは、これらの調査結果に基づいて、エイリアシングのないダウンサンプリング操作を紹介します。この操作は、任意のCNNアーキテクチャであるFrequencyLowCutプーリングに簡単にプラグインできます。私たちの実験は、シンプルで高速なFGSMの敵対的トレーニングと組み合わせることで、ハイパーパラメーターのないオペレーターがモデルの堅牢性を大幅に向上させ、壊滅的な過剰適合を回避することを示しています。
Over the last years, Convolutional Neural Networks (CNNs) have been the dominating neural architecture in a wide range of computer vision tasks. From an image and signal processing point of view, this success might be a bit surprising as the inherent spatial pyramid design of most CNNs is apparently violating basic signal processing laws, i.e. Sampling Theorem in their down-sampling operations. However, since poor sampling appeared not to affect model accuracy, this issue has been broadly neglected until model robustness started to receive more attention. Recent work [17] in the context of adversarial attacks and distribution shifts, showed after all, that there is a strong correlation between the vulnerability of CNNs and aliasing artifacts induced by poor down-sampling operations. This paper builds on these findings and introduces an aliasing free down-sampling operation which can easily be plugged into any CNN architecture: FrequencyLowCut pooling. Our experiments show, that in combination with simple and fast FGSM adversarial training, our hyper-parameter free operator significantly improves model robustness and avoids catastrophic overfitting.