Vision Transformer(ViT)アーキテクチャは、最近、さまざまなコンピュータービジョンタスク全体で競争力のあるパフォーマンスを実現しました。 ViTの背後にある動機の1つは、畳み込みニューラルネットワーク(CNN)と比較した場合の誘導バイアスが弱いことです。ただし、これによりViTのトレーニングもより困難になります。それらには、非常に大規模なトレーニングデータセット、大量の正則化、および強力なデータ拡張が必要です。 ViTのトレーニングに使用されるデータ拡張戦略は、2つのアーキテクチャの間に大きな違いがあるにもかかわらず、主にCNNトレーニングから継承されています。この作業では、画像分類のためにCNN(ResNetなど)とViTアーキテクチャで異なるデータ拡張戦略がどのように実行されるかを経験的に評価しました。 ViTのトレーニングに最適なStyleAugと呼ばれるスタイル転送データ拡張を導入しましたが、RandAugmentとAugmixは通常CNNのトレーニングに最適です。また、分類の損失に加えて、同じ画像の複数の拡張間の一貫性の損失を使用すると、ViTをトレーニングするときに特に役立つことがわかりました。
The Vision Transformer (ViT) architecture has recently achieved competitive performance across a variety of computer vision tasks. One of the motivations behind ViTs is weaker inductive biases, when compared to convolutional neural networks (CNNs). However this also makes ViTs more difficult to train. They require very large training datasets, heavy regularization, and strong data augmentations. The data augmentation strategies used to train ViTs have largely been inherited from CNN training, despite the significant differences between the two architectures. In this work, we empirical evaluated how different data augmentation strategies performed on CNN (e.g., ResNet) versus ViT architectures for image classification. We introduced a style transfer data augmentation, termed StyleAug, which worked best for training ViTs, while RandAugment and Augmix typically worked best for training CNNs. We also found that, in addition to a classification loss, using a consistency loss between multiple augmentations of the same image was especially helpful when training ViTs.