arXiv reaDer
Visformer:ビジョンに優しいトランスフォーマー
Visformer: The Vision-friendly Transformer
昨年は、Transformerモジュールを視力の問題に適用するという急速な発展を目の当たりにしてきました。一部の研究者は、Transformerベースのモデルがデータを適合させる好ましい能力を享受していることを実証しましたが、特にトレーニングデータが限られている場合、これらのモデルが過剰適合に苦しむことを示す証拠がまだ増えています。このホワイトペーパーでは、Transformerベースのモデルを畳み込みベースのモデルに段階的に移行するための段階的な操作を実行することにより、実証的研究を提供します。移行プロセス中に得られた結果は、視覚認識を改善するための有用なメッセージを提供します。これらの観察に基づいて、「ビジョンフレンドリートランスフォーマー」と略されるVisformerという名前の新しいアーキテクチャを提案します。同じ計算の複雑さで、VisformerはImageNet分類精度の点でTransformerベースのモデルと畳み込みベースのモデルの両方を上回り、モデルの複雑さが低いかトレーニングセットが小さいほど利点が大きくなります。コードはhttps://github.com/danczs/Visformerで入手できます。
The past year has witnessed the rapid development of applying the Transformer module to vision problems. While some researchers have demonstrated that Transformer-based models enjoy a favorable ability of fitting data, there are still growing number of evidences showing that these models suffer over-fitting especially when the training data is limited. This paper offers an empirical study by performing step-by-step operations to gradually transit a Transformer-based model to a convolution-based model. The results we obtain during the transition process deliver useful messages for improving visual recognition. Based on these observations, we propose a new architecture named Visformer, which is abbreviated from the `Vision-friendly Transformer'. With the same computational complexity, Visformer outperforms both the Transformer-based and convolution-based models in terms of ImageNet classification accuracy, and the advantage becomes more significant when the model complexity is lower or the training set is smaller. The code is available at https://github.com/danczs/Visformer.
updated: Mon Apr 26 2021 13:13:03 GMT+0000 (UTC)
published: Mon Apr 26 2021 13:13:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト