i.i.d.での有名な予測力にもかかわらずデータ、畳み込みニューラルネットワークは、カテゴリメンバシップを構成するものについての直感によく一致する低周波数パターンよりも、人間が表面的であると考える高周波数パターンに依存することが知られています。本論文では、以前の層で学習されたローカル表現の予測力にペナルティを課すことにより、堅牢な畳み込みネットワークをトレーニングする方法を提案します。直感的には、ネットワークは、局所受容野から収集できる色やテクスチャなどの予測信号を破棄し、代わりに画像のグローバル構造に依存することを余儀なくされています。一連の合成およびベンチマークドメイン適応タスク全体で、この方法はドメイン外の一般化を改善します。また、クロスドメイン転送を評価するために、カテゴリとスケールで設定されたImageNet分類検証に一致するスケッチのような画像で構成される新しいデータセットであるImageNet-Sketchを導入します。
Despite their renowned predictive power on i.i.d. data, convolutional neural networks are known to rely more on high-frequency patterns that humans deem superficial than on low-frequency patterns that agree better with intuitions about what constitutes category membership. This paper proposes a method for training robust convolutional networks by penalizing the predictive power of the local representations learned by earlier layers. Intuitively, our networks are forced to discard predictive signals such as color and texture that can be gleaned from local receptive fields and to rely instead on the global structures of the image. Across a battery of synthetic and benchmark domain adaptation tasks, our method confers improved generalization out of the domain. Also, to evaluate cross-domain transfer, we introduce ImageNet-Sketch, a new dataset consisting of sketch-like images, that matches the ImageNet classification validation set in categories and scale.