arXiv reaDer
SoT:変圧器の分類ヘッドを深く掘り下げる
SoT: Delving Deeper into Classification Head for Transformer
Transformerモデルは、自然言語処理(NLP)で成功するだけでなく、コンピュータービジョン(CV)でも高い可能性を示します。大きな進歩にもかかわらず、ほとんどの作品は建築の改善にのみ焦点を当てており、分類の頭にはほとんど注意を払っていません。何年もの間、トランスフォーマーモデルは、高レベルの単語トークンを明示的に利用せずに、分類トークンのみに基づいて最終的な分類子を構築します。本論文では、分類器の分類トークンと単語トークンを同時に利用する、2次トランスフォーマー(SoT)と呼ばれる新しいトランスフォーマーモデルを提案します。具体的には、高レベルの単語トークンに豊富な情報が含まれていることを経験的に開示します。これらの情報は、それ自体が分類子と非常に有能であり、さらに分類トークンを補完します。このような豊富な情報を効果的に活用するために、特異値電力正規化を使用した多頭グローバル相互共分散プーリングを提案します。これは、同様の哲学を共有し、一般的に使用されるプーリング方法よりも優れた変圧器ブロックと互換性があります。次に、単語トークンと分類トークンを明示的に組み合わせて、最終的な分類ヘッドを構築する方法を包括的に学習します。 CVタスクの場合、当社のSoTは、ImageNetやImageNet-Aなどの困難なベンチマークで最先端のビジョントランスフォーマーを大幅に改善します。 NLPタスクの場合、GPTやBERTなどの事前トレーニング済みの言語トランスフォーマーに基づく微調整により、SoTはCoLAやRTEなどの広く使用されているタスクのパフォーマンスを大幅に向上させます。コードはhttps://peihuali.org/SoTで入手できます
Transformer models are not only successful in natural language processing (NLP) but also demonstrate high potential in computer vision (CV). Despite great advance, most of works only focus on improvement of architectures but pay little attention to the classification head. For years transformer models base exclusively on classification token to construct the final classifier, without explicitly harnessing high-level word tokens. In this paper, we propose a novel transformer model called second-order transformer (SoT), exploiting simultaneously the classification token and word tokens for the classifier. Specifically, we empirically disclose that high-level word tokens contain rich information, which per se are very competent with the classifier and moreover, are complementary to the classification token. To effectively harness such rich information, we propose multi-headed global cross-covariance pooling with singular value power normalization, which shares similar philosophy and thus is compatible with the transformer block, better than commonly used pooling methods. Then, we study comprehensively how to explicitly combine word tokens with classification token for building the final classification head. For CV tasks, our SoT significantly improves state-of-the-art vision transformers on challenging benchmarks including ImageNet and ImageNet-A. For NLP tasks, through fine-tuning based on pretrained language transformers including GPT and BERT, our SoT greatly boosts the performance on widely used tasks such as CoLA and RTE. Code will be available at https://peihuali.org/SoT
updated: Sat Dec 18 2021 04:28:10 GMT+0000 (UTC)
published: Thu Apr 22 2021 09:05:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト