畳み込みニューラルネットワーク(CNN)は、これまで視覚データのデファクトモデルであった。最近の研究では、ビジョントランスフォーマーモデル(ViT)が、画像分類タスクにおいて同等またはそれ以上の性能を達成できることが示されている。このことは、以下の中心的な問題を提起する。ビジョントランスフォーマーはこれらのタスクをどのように解決しているのか? 畳み込みネットワークのように動作しているのか? それとも全く異なる視覚表現を学習しているのか? 画像分類のベンチマークでViTとCNNの内部表現構造を分析したところ、ViTの方がすべての層でより均一な表現を持っているなど、2つのアーキテクチャには顕著な違いがあることがわかった。この違いはどのようにして生じるのかを調べたところ、グローバルな情報の早期集約を可能にする自己注意と、下位層から上位層へと特徴を強く伝播させるViTの残差結合が重要な役割を果たしていることがわかった。また、空間定位の影響を調べたところ、ViTは入力された空間情報をうまく保存し、さまざまな分類方法で顕著な効果を発揮することがわかった。最後に、(事前学習)データセットの規模が中間的な特徴と伝達学習に与える影響を調べ、MLP-Mixerなどの新しいアーキテクチャへの接続について議論して結論とする。
Convolutional neural networks (CNNs) have so far been the de-facto model for visual data. Recent work has shown that (Vision) Transformer models (ViT) can achieve comparable or even superior performance on image classification tasks. This raises a central question: how are Vision Transformers solving these tasks? Are they acting like convolutional networks, or learning entirely different visual representations? Analyzing the internal representation structure of ViTs and CNNs on image classification benchmarks, we find striking differences between the two architectures, such as ViT having more uniform representations across all layers. We explore how these differences arise, finding crucial roles played by self-attention, which enables early aggregation of global information, and ViT residual connections, which strongly propagate features from lower to higher layers. We study the ramifications for spatial localization, demonstrating ViTs successfully preserve input spatial information, with noticeable effects from different classification methods. Finally, we study the effect of (pretraining) dataset scale on intermediate features and transfer learning, and conclude with a discussion on connections to new architectures such as the MLP-Mixer.