arXiv reaDer
ビジョントランスフォーマーの学習にはスケーリングされたReLUが重要
Scaled ReLU Matters for Training Vision Transformers
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)の代替設計パラダイムです。ただし、ViTのトレーニングは、学習率、オプティマイザー、ウォームアップエポックなどのトレーニングパラメーターに敏感であるため、CNNよりもはるかに困難です。トレーニングの難しさの理由は〜xiao2021earlyで経験的に分析されており、著者は問題がViTモデルのパッチ化ステムにあると推測し、初期の畳み込みがトランスフォーマーの見栄えを良くするのに役立つと提案しています。この論文では、この問題をさらに調査し、上記の結論を拡張します。初期の畳み込みのみが安定したトレーニングに役立ちませんが、畳み込みステム(conv-stem)でのスケーリングされたReLU操作が重要です。理論的にも経験的にも、変換ステムでスケーリングされたReLUがトレーニングの安定化を改善するだけでなく、パッチトークンの多様性を高め、パラメーターとフロップをいくつか追加することで、大きなマージンでピークパフォーマンスを向上させることを確認します。さらに、以前のViTが十分にトレーニングされていないことを示すために広範な実験が行われ、ViTがCNNのより良い代替物になる大きな可能性があることをさらに示しています。
Vision transformers (ViTs) have been an alternative design paradigm to convolutional neural networks (CNNs). However, the training of ViTs is much harder than CNNs, as it is sensitive to the training parameters, such as learning rate, optimizer and warmup epoch. The reasons for training difficulty are empirically analysed in ~xiao2021early, and the authors conjecture that the issue lies with the patchify-stem of ViT models and propose that early convolutions help transformers see better. In this paper, we further investigate this problem and extend the above conclusion: only early convolutions do not help for stable training, but the scaled ReLU operation in the convolutional stem (conv-stem) matters. We verify, both theoretically and empirically, that scaled ReLU in conv-stem not only improves training stabilization, but also increases the diversity of patch tokens, thus boosting peak performance with a large margin via adding few parameters and flops. In addition, extensive experiments are conducted to demonstrate that previous ViTs are far from being well trained, further showing that ViTs have great potential to be a better substitute of CNNs.
updated: Wed Jan 12 2022 01:01:35 GMT+0000 (UTC)
published: Wed Sep 08 2021 17:57:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト