arXiv reaDer
画像超解像トランスフォーマーでより多くのピクセルをアクティブ化する
Activating More Pixels in Image Super-Resolution Transformer
トランスフォーマーベースの方法は、画像の超解像などの低レベルの視覚タスクで優れたパフォーマンスを示しています。ただし、これらのネットワークは、アトリビューション分析を通じて、限られた空間範囲の入力情報しか利用できないことがわかりました。これは、Transformerの可能性が既存のネットワークでまだ十分に活用されていないことを意味します。再構成のためにより多くの入力ピクセルをアクティブにするために、新しいハイブリッドアテンショントランスフォーマー(HAT)を提案します。チャネルアテンションとセルフアテンションスキームを組み合わせて、それらの補完的な利点を利用します。さらに、クロスウィンドウ情報をより適切に集約するために、オーバーラップするクロスアテンションモジュールを導入して、隣接するウィンドウ機能間の相互作用を強化します。トレーニング段階では、さらに改善をもたらすために、同じタスクの事前トレーニング戦略を追加で提案します。広範な実験により、提案されたモジュールの有効性が示され、全体的な方法は、最先端の方法を1dB以上大幅に上回っています。コードとモデルはhttps://github.com/chxy95/HATで入手できます。
Transformer-based methods have shown impressive performance in low-level vision tasks, such as image super-resolution. However, we find that these networks can only utilize a limited spatial range of input information through attribution analysis. This implies that the potential of Transformer is still not fully exploited in existing networks. In order to activate more input pixels for reconstruction, we propose a novel Hybrid Attention Transformer (HAT). It combines channel attention and self-attention schemes, thus making use of their complementary advantages. Moreover, to better aggregate the cross-window information, we introduce an overlapping cross-attention module to enhance the interaction between neighboring window features. In the training stage, we additionally propose a same-task pre-training strategy to bring further improvement. Extensive experiments show the effectiveness of the proposed modules, and the overall method significantly outperforms the state-of-the-art methods by more than 1dB. Codes and models will be available at https://github.com/chxy95/HAT.
updated: Mon May 09 2022 17:36:58 GMT+0000 (UTC)
published: Mon May 09 2022 17:36:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト