arXiv reaDer
セマンティック画像セグメンテーションのための完全なトランスフォーマーネットワーク
Fully Transformer Networks for Semantic Image Segmentation
トランスフォーマーは、長距離の依存関係をモデル化できるため、さまざまな自然言語処理およびコンピュータービジョンタスクで優れたパフォーマンスを示しています。最近の進歩は、そのようなトランスフォーマーをCNNベースのセマンティック画像セグメンテーションモデルと組み合わせることが非常に有望であることを示しています。ただし、純粋なトランスフォーマーベースのアプローチが画像セグメンテーションに対してどれだけうまく達成できるかについては、まだ十分に研究されていません。この作業では、エンコーダーデコーダーベースのFully Transformer Networks(FTN)である、セマンティック画像セグメンテーションの新しいフレームワークについて説明します。具体的には、まず、標準のビジュアルトランスフォーマー(ViT)の計算の複雑さを軽減しながら、階層的特徴を段階的に学習するためのエンコーダーとしてピラミッドグループトランスフォーマー(PGT)を提案します。次に、セマンティック画像セグメンテーションのために、PGTエンコーダの複数のレベルからのセマンティックレベルと空間レベルの情報を融合する機能ピラミッドトランスフォーマー(FPT)を提案します。驚いたことに、この単純なベースラインは、PASCAL Context、ADE20K、COCO-Stuffなど、複数の挑戦的なセマンティックセグメンテーションベンチマークで新しい最先端の結果を達成できます。ソースコードは、この作品の公開時にリリースされます。
Transformers have shown impressive performance in various natural language processing and computer vision tasks, due to the capability of modeling long-range dependencies. Recent progress has demonstrated to combine such transformers with CNN-based semantic image segmentation models is very promising. However, it is not well studied yet on how well a pure transformer based approach can achieve for image segmentation. In this work, we explore a novel framework for semantic image segmentation, which is encoder-decoder based Fully Transformer Networks (FTN). Specifically, we first propose a Pyramid Group Transformer (PGT) as the encoder for progressively learning hierarchical features, while reducing the computation complexity of the standard visual transformer(ViT). Then, we propose a Feature Pyramid Transformer (FPT) to fuse semantic-level and spatial-level information from multiple levels of the PGT encoder for semantic image segmentation. Surprisingly, this simple baseline can achieve new state-of-the-art results on multiple challenging semantic segmentation benchmarks, including PASCAL Context, ADE20K and COCO-Stuff. The source code will be released upon the publication of this work.
updated: Thu Aug 26 2021 11:13:35 GMT+0000 (UTC)
published: Tue Jun 08 2021 05:15:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト