この論文では、フリッピング、翻訳、ローテーションなどの従来の拡張手法を補完するために、新しい暗黙的なセマンティックデータ拡張(ISDA)アプローチを提案します。私たちの仕事は、深いネットワークが特徴を線形化するのに驚くほど優れているという興味深い特性に動機付けられているため、深い特徴空間の特定の方向は意味のある意味の変換に対応しています(サングラスの追加や背景の変更など)。結果として、機能空間の多くのセマンティック方向に沿ってトレーニングサンプルを翻訳すると、データセットを効果的に拡張して一般化を改善できます。このアイデアを効果的かつ効率的に実装するために、まず、クラス内のセマンティックバリエーションをキャプチャする各クラスのディープフィーチャの共分散行列のオンライン推定を実行します。次に、そのクラスのトレーニングデータを補強するために、推定された共分散を含むゼロ平均正規分布からランダムなベクトルが描画されます。重要なのは、サンプルを明示的に拡張する代わりに、拡張トレーニングセットで予想されるクロスエントロピー(CE)損失の上限を直接最小化して、非常に効率的なアルゴリズムを実現できることです。実際、提案されたISDAは、新規の堅牢なCE損失を最小化することを示し、通常のトレーニング手順にごくわずかな余分な計算コストを追加します。 ISDAは単純ですが、CIFAR-10、CIFAR-100、ImageNetなどのさまざまなデータセットで一般的なディープモデル(ResNetおよびDenseNet)の一般化パフォーマンスを一貫して向上させます。結果を再現するためのコードは、https://github.com/blackfeather-wang/ISDA-for-Deep-Networksで入手できます。
In this paper, we propose a novel implicit semantic data augmentation (ISDA) approach to complement traditional augmentation techniques like flipping, translation or rotation. Our work is motivated by the intriguing property that deep networks are surprisingly good at linearizing features, such that certain directions in the deep feature space correspond to meaningful semantic transformations, e.g., adding sunglasses or changing backgrounds. As a consequence, translating training samples along many semantic directions in the feature space can effectively augment the dataset to improve generalization. To implement this idea effectively and efficiently, we first perform an online estimate of the covariance matrix of deep features for each class, which captures the intra-class semantic variations. Then random vectors are drawn from a zero-mean normal distribution with the estimated covariance to augment the training data in that class. Importantly, instead of augmenting the samples explicitly, we can directly minimize an upper bound of the expected cross-entropy (CE) loss on the augmented training set, leading to a highly efficient algorithm. In fact, we show that the proposed ISDA amounts to minimizing a novel robust CE loss, which adds negligible extra computational cost to a normal training procedure. Although being simple, ISDA consistently improves the generalization performance of popular deep models (ResNets and DenseNets) on a variety of datasets, e.g., CIFAR-10, CIFAR-100 and ImageNet. Code for reproducing our results are available at https://github.com/blackfeather-wang/ISDA-for-Deep-Networks.