Why do deep convolutional networks generalize so poorly to small image transformations?
 畳み込みニューラルネットワーク(CNN)は、一般的に小さな画像変換に対して不変であると想定されます。畳み込みアーキテクチャのため、またはデータ拡張を使用してトレーニングされたためです。最近、数人の著者がこれが事実ではないことを示しました:入力画像の小さな翻訳または再スケーリングはネットワークの予測を劇的に変えることができます。この論文では、この現象を定量化し、たたみ込みアーキテクチャもデータ増強も望ましい不変性を達成するのに十分ではない理由を尋ねます。具体的には、アーキテクチャは古典的なサンプリング定理を無視するため、畳み込みアーキテクチャは不変性を与えず、CNNはトレーニングセットの典型的な画像に非常に類似した画像についてのみ変換に対して不変であることを学習するため、データ拡張は不変性を与えません。 。この問題に対する2つの可能な解決策について説明します。(1)中間表現のアンチエイリアシングと(2)データ増大の増加、およびそれらがせいぜい部分的な解決策のみを提供することを示します。まとめると、我々の結果は、高精度を維持しながらニューラルネットワークの小さな画像変換に対する不変性を保証する問題が未解決のままであることを示しています。
Convolutional Neural Networks (CNNs) are commonly assumed to be invariant to small image transformations: either because of the convolutional architecture or because they were trained using data augmentation. Recently, several authors have shown that this is not the case: small translations or rescalings of the input image can drastically change the network's prediction. In this paper, we quantify this phenomena and ask why neither the convolutional architecture nor data augmentation are sufficient to achieve the desired invariance. Specifically, we show that the convolutional architecture does not give invariance since architectures ignore the classical sampling theorem, and data augmentation does not give invariance because the CNNs learn to be invariant to transformations only for images that are very similar to typical images from the training set. We discuss two possible solutions to this problem: (1) antialiasing the intermediate representations and (2) increasing data augmentation and show that they provide only a partial solution at best. Taken together, our results indicate that the problem of insuring invariance to small image transformations in neural networks while preserving high accuracy remains unsolved.
updated: Tue Dec 31 2019 13:40:12 GMT+0000 (UTC)
published: Wed May 30 2018 18:56:33 GMT+0000 (UTC)
