バックボーンとして畳み込みニューラルネットワーク(CNN)を使用すると、コンピュータービジョンで大きな成功を収めますが、この作業では、畳み込みのない多くの高密度予測タスクに役立つ単純なバックボーンネットワークを調査します。画像分類用に特別に設計された最近提案されたTransformerモデル(ViTなど)とは異なり、Transformerをさまざまな高密度予測タスクに移植することの難しさを克服するPyramid Vision Transformer〜(PVT)を提案します。 PVTには、従来技術と比較していくつかのメリットがあります。 (1)通常、出力が低く、計算コストとメモリコストが高いViTとは異なり、PVTは、画像の密なパーティションでトレーニングして、密な予測に重要な高出力解像度を実現できるだけでなく、漸進的な縮小を使用することもできます。大きな特徴マップの計算を減らすためのピラミッド。 (2)PVTは、CNNとTransformerの両方の利点を継承しており、CNNバックボーンを置き換えるだけで、畳み込みのないさまざまなビジョンタスクで統合されたバックボーンになります。 (3)広範な実験を実施してPVTを検証し、オブジェクト検出、セマンティック、インスタンスセグメンテーションなどの多くのダウンストリームタスクのパフォーマンスが向上することを示します。たとえば、同等の数のパラメーターを使用すると、RetinaNet + PVTはCOCOデータセットで40.4APを達成し、RetinNet + ResNet50(36.3 AP)を4.1絶対AP上回ります。 PVTがピクセルレベルの予測の代替的で有用なバックボーンとして機能し、将来の研究を促進できることを願っています。コードはhttps://github.com/whai362/PVTで入手できます。
Although using convolutional neural networks (CNNs) as backbones achieves great successes in computer vision, this work investigates a simple backbone network useful for many dense prediction tasks without convolutions. Unlike the recently-proposed Transformer model (e.g., ViT) that is specially designed for image classification, we propose Pyramid Vision Transformer~(PVT), which overcomes the difficulties of porting Transformer to various dense prediction tasks. PVT has several merits compared to prior arts. (1) Different from ViT that typically has low-resolution outputs and high computational and memory cost, PVT can be not only trained on dense partitions of the image to achieve high output resolution, which is important for dense predictions but also using a progressive shrinking pyramid to reduce computations of large feature maps. (2) PVT inherits the advantages from both CNN and Transformer, making it a unified backbone in various vision tasks without convolutions by simply replacing CNN backbones. (3) We validate PVT by conducting extensive experiments, showing that it boosts the performance of many downstream tasks, e.g., object detection, semantic, and instance segmentation. For example, with a comparable number of parameters, RetinaNet+PVT achieves 40.4 AP on the COCO dataset, surpassing RetinNet+ResNet50 (36.3 AP) by 4.1 absolute AP. We hope PVT could serve as an alternative and useful backbone for pixel-level predictions and facilitate future researches. Code is available at https://github.com/whai362/PVT.