arXiv reaDer
ResT V2:よりシンプル、高速、強力
ResT V2: Simpler, Faster and Stronger
この論文では、視覚認識のための、よりシンプルで、より速く、より強力なマルチスケールビジョントランスフォーマーであるResTv2を提案します。 ResTv2は、ResTv1のEMSA構造を簡素化し(つまり、マルチヘッドの相互作用部分を排除)、アップサンプル操作を使用して、ダウンサンプリング操作によって失われた中周波数および高周波数の情報を再構築します。さらに、ResTv2バックボーンをダウンストリームタスクにより適切に適用するためのさまざまな手法を検討します。 EMSAv2とウィンドウアテンションを組み合わせると、理論上の行列乗算FLOPを大幅に削減できますが、計算密度が大幅に低下し、実際の速度が低下する可能性があることがわかりました。 ImageNet分類、COCO検出、およびADE20KセマンティックセグメンテーションでResTv2を包括的に検証します。実験結果は、提案されたResTv2が最近の最先端のバックボーンを大幅に上回っていることを示しており、堅実なバックボーンとしてのResTv2の可能性を示しています。コードとモデルはhttps://github.com/wofmanaf/ResTで公開されます
This paper proposes ResTv2, a simpler, faster, and stronger multi-scale vision Transformer for visual recognition. ResTv2 simplifies the EMSA structure in ResTv1 (i.e., eliminating the multi-head interaction part) and employs an upsample operation to reconstruct the lost medium- and high-frequency information caused by the downsampling operation. In addition, we explore different techniques for better apply ResTv2 backbones to downstream tasks. We found that although combining EMSAv2 and window attention can greatly reduce the theoretical matrix multiply FLOPs, it may significantly decrease the computation density, thus causing lower actual speed. We comprehensively validate ResTv2 on ImageNet classification, COCO detection, and ADE20K semantic segmentation. Experimental results show that the proposed ResTv2 can outperform the recently state-of-the-art backbones by a large margin, demonstrating the potential of ResTv2 as solid backbones. The code and models will be made publicly available at https://github.com/wofmanaf/ResT
updated: Tue May 10 2022 13:12:53 GMT+0000 (UTC)
published: Fri Apr 15 2022 07:57:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト