arXiv reaDer
畳み込みニューラル ネットワークのトランスフォーマー
Transformer in Convolutional Neural Networks
私たちは、Multi-Head Self-Attention (MHSA) の高い計算/空間の複雑さによって引き起こされるビジョン トランスフォーマーの低効率の欠陥に取り組みます。この目的のために、表現が階層的に計算される階層的 MHSA (H-MHSA) を提案します。具体的には、私たちの H-MHSA は、最初に画像パッチをトークンとして表示することにより、小さなグリッド内の特徴の関係を学習します。次に、小さなグリッドが大きなグリッドにマージされ、前のステップの各小さなグリッドをトークンとして表示することで、特徴の関係が学習されます。このプロセスを繰り返して、トークンの数を徐々に減らします。 H-MHSA モジュールは、任意の CNN アーキテクチャに簡単にプラグインでき、バックプロパゲーションを介したトレーニングに適しています。私たちはこの新しいバックボーンを TransCNN と呼んでおり、基本的にトランスフォーマーと CNN の両方の利点を継承しています。実験は、TransCNN が画像認識の最先端の精度を達成することを示しています。コードと事前トレーニング済みモデルは、 で入手できます。このテクニカル レポートは、実験を追加して更新を続けます。
We tackle the low-efficiency flaw of vision transformer caused by the high computational/space complexity in Multi-Head Self-Attention (MHSA). To this end, we propose the Hierarchical MHSA (H-MHSA), whose representation is computed in a hierarchical manner. Specifically, our H-MHSA first learns feature relationships within small grids by viewing image patches as tokens. Then, small grids are merged into larger ones, within which feature relationship is learned by viewing each small grid at the preceding step as a token. This process is iterated to gradually reduce the number of tokens. The H-MHSA module is readily pluggable into any CNN architectures and amenable to training via backpropagation. We call this new backbone TransCNN, and it essentially inherits the advantages of both transformer and CNN. Experiments demonstrate that TransCNN achieves state-of-the-art accuracy for image recognition. Code and pretrained models are available at This technical report will keep updating by adding more experiments.
updated: Wed Jun 09 2021 07:23:14 GMT+0000 (UTC)
published: Sun Jun 06 2021 17:01:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト