arXiv reaDer
マルチスケールビジョンロングフォーマー:高解像度画像エンコーディング用の新しいビジョントランスフォーマー
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding
このホワイトペーパーでは、2つの手法を使用して高解像度画像をエンコードするためにdosovitskiy2020imageのViTを大幅に強化する新しいVision Transformer(ViT)アーキテクチャMulti-Scale VisionLongformerを紹介します。 1つはマルチスケールモデル構造であり、管理可能な計算コストで複数のスケールで画像エンコーディングを提供します。 2つ目は、元々自然言語処理用に開発されたLongformer Beltagy2020longformerの変形である視覚Longformerの注意メカニズムであり、入力トークンの数に対して線形の複雑さを実現します。包括的な経験的研究によると、新しいViTは、既存のViTモデルとそれに対応するResNetを含むいくつかの強力なベースライン、および同時作業wang2021pyramidのPyramid Vision Transformerを、画像分類、オブジェクト検出などのさまざまなビジョンタスクで大幅に上回っています。とセグメンテーション。モデルとソースコードはhttps://github.com/microsoft/vision-longformerでリリースされています。
This paper presents a new Vision Transformer (ViT) architecture Multi-Scale Vision Longformer, which significantly enhances the ViT of dosovitskiy2020image for encoding high-resolution images using two techniques. The first is the multi-scale model structure, which provides image encodings at multiple scales with manageable computational cost. The second is the attention mechanism of vision Longformer, which is a variant of Longformer beltagy2020longformer, originally developed for natural language processing, and achieves a linear complexity w.r.t. the number of input tokens. A comprehensive empirical study shows that the new ViT significantly outperforms several strong baselines, including the existing ViT models and their ResNet counterparts, and the Pyramid Vision Transformer from a concurrent work wang2021pyramid, on a range of vision tasks, including image classification, object detection, and segmentation. The models and source code are released at https://github.com/microsoft/vision-longformer.
updated: Thu May 27 2021 09:02:00 GMT+0000 (UTC)
published: Mon Mar 29 2021 06:23:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト