視覚表現学習は、さまざまな視覚問題を解決するための鍵です。独創的なグリッド構造の優先順位に依存して、畳み込みニューラルネットワーク(CNN)は、ほとんどのディープビジョンモデルの事実上の標準アーキテクチャでした。たとえば、従来のセマンティックセグメンテーション手法では、エンコーダーデコーダーアーキテクチャを備えた完全畳み込みネットワーク(FCN)を採用することがよくあります。エンコーダーは空間分解能を徐々に低下させ、より大きな受容野でより抽象的な視覚的概念を学習します。コンテキストモデリングはセグメンテーションにとって重要であるため、最新の取り組みは、拡張された(つまり、激しい)畳み込みまたは注意モジュールの挿入のいずれかを通じて、受容野を増やすことに焦点を当てています。ただし、FCNベースのアーキテクチャは変更されていません。この論文では、視覚表現学習を一般的にシーケンス間の予測タスクとして扱うことにより、代替の視点を提供することを目指しています。具体的には、純粋なTransformerをデプロイして、ローカルの畳み込みや解像度の低下なしに、一連のパッチとして画像をエンコードします。 Transformerのすべてのレイヤーでモデル化されたグローバルコンテキストを使用すると、視覚タスクにより適切に取り組むために、より強力な視覚的表現を学習できます。特に、SEgmentation TRansformer(SETR)と呼ばれるセグメンテーションモデルは、ADE20K(50.28%mIoU、提出日のテストリーダーボードの最初の位置)、Pascal Context(55.83%mIoU)に優れており、Cityscapesで競争力のある結果に達します。さらに、階層的ピラミッド型アーキテクチャのウィンドウ内のローカル注意とウィンドウ全体のグローバル注意を特徴とする階層型ローカルグローバル(HLG)トランスフォーマーのファミリーを作成します。広範な実験は、私たちの方法がさまざまな視覚認識タスク(たとえば、画像分類、オブジェクト検出、インスタンスセグメンテーションおよびセマンティックセグメンテーション)で魅力的なパフォーマンスを達成することを示しています。
Visual representation learning is the key of solving various vision problems. Relying on the seminal grid structure priors, convolutional neural networks (CNNs) have been the de facto standard architectures of most deep vision models. For instance, classical semantic segmentation methods often adopt a fully-convolutional network (FCN) with an encoder-decoder architecture. The encoder progressively reduces the spatial resolution and learns more abstract visual concepts with larger receptive fields. Since context modeling is critical for segmentation, the latest efforts have been focused on increasing the receptive field, through either dilated (i.e., atrous) convolutions or inserting attention modules. However, the FCN-based architecture remains unchanged. In this paper, we aim to provide an alternative perspective by treating visual representation learning generally as a sequence-to-sequence prediction task. Specifically, we deploy a pure Transformer to encode an image as a sequence of patches, without local convolution and resolution reduction. With the global context modeled in every layer of the Transformer, stronger visual representation can be learned for better tackling vision tasks. In particular, our segmentation model, termed as SEgmentation TRansformer (SETR), excels on ADE20K (50.28% mIoU, the first position in the test leaderboard on the day of submission), Pascal Context (55.83% mIoU) and reaches competitive results on Cityscapes. Further, we formulate a family of Hierarchical Local-Global (HLG) Transformers characterized by local attention within windows and global-attention across windows in a hierarchical and pyramidal architecture. Extensive experiments show that our method achieves appealing performance on a variety of visual recognition tasks (e.g., image classification, object detection and instance segmentation and semantic segmentation).