最近の研究では、畳み込みニューラルネットワークは、たとえば数度の回転や数ピクセルの平行移動など、小さな画像変換にうまく一般化されないことが明らかになりました。このような変換に対するロバスト性を向上させるために、入力画像に適用される一般的なデータ拡張に加えて、ニューラルアーキテクチャの中間層にデータ拡張を導入することを提案します。さまざまなレベルでアクティベーションマップ(機能)に小さな摂動を導入することにより、このような変換に対処するニューラルネットワークの能力を開発します。 2つの異なる畳み込みアーキテクチャ(ResNet-18とDenseNet-121)を考慮して、3つの画像分類ベンチマーク(Tiny ImageNet、Caltech-256、Food-101)で実験を行います。 2つの最先端の方法と比較した場合、経験的な結果は、私たちのアプローチが一貫して精度と平均フリップ率の間の最良のトレードオフを達成することを示しています。
Recent studies revealed that convolutional neural networks do not generalize well to small image transformations, e.g. rotations by a few degrees or translations of a few pixels. To improve the robustness to such transformations, we propose to introduce data augmentation at intermediate layers of the neural architecture, in addition to the common data augmentation applied on the input images. By introducing small perturbations to activation maps (features) at various levels, we develop the capacity of the neural network to cope with such transformations. We conduct experiments on three image classification benchmarks (Tiny ImageNet, Caltech-256 and Food-101), considering two different convolutional architectures (ResNet-18 and DenseNet-121). When compared with two state-of-the-art methods, the empirical results show that our approach consistently attains the best trade-off between accuracy and mean flip rate.