この論文では、Strips Window Attention Transformer (S2WAT) と呼ばれる、画像スタイル転送用の新しい階層型ビジョン Transformer を紹介します。これは、エンコーダー転送デコーダー アーキテクチャのエンコーダーとして機能します。階層機能により、S2WAT は、機能ピラミッド ネットワーク (FPN) や U-Net など、コンピューター ビジョンの他の分野で実績のある手法を活用して、将来の作業で画像スタイルを転送できます。ただし、既存のウィンドウベースの Transformer では、イメージ スタイル トランスファーに直接導入すると、定型化されたイメージがグリッド状になるという問題が発生します。この問題を解決するために、表現が Strips Window Attention (SpW Attention) で計算される S2WAT を提案します。 SpW Attention は、Attn Merge という新しい機能融合スキームによって、水平方向と垂直方向のローカル情報と長距離依存関係の両方を統合できます。定性的および定量的な実験により、S2WAT が最先端の CNN ベース、フロー ベース、および Transformer ベースのアプローチに匹敵するパフォーマンスを達成することが実証されています。コードとモデルは https://github.com/AlienZhang1996/S2WAT で入手できます。
This paper presents a new hierarchical vision Transformer for image style transfer, called Strips Window Attention Transformer (S2WAT), which serves as an encoder of encoder-transfer-decoder architecture. With hierarchical features, S2WAT can leverage proven techniques in other fields of computer vision, such as feature pyramid networks (FPN) or U-Net, to image style transfer in future works. However, the existing window-based Transformers will cause a problem that the stylized images will be grid-like when introduced into image style transfer directly. To solve this problem, we propose S2WAT whose representation is computed with Strips Window Attention (SpW Attention). The SpW Attention can integrate both local information and long-range dependencies in horizontal and vertical directions by a novel feature fusion scheme named Attn Merge. Qualitative and quantitative experiments demonstrate that S2WAT achieves comparable performance to state-of-the-art CNN-based, Flow-based, and Transformer-based approaches. The code and models are available at https://github.com/AlienZhang1996/S2WAT.