この論文では、ワイヤレス画像伝送トランス(WITT)と呼ばれるセマンティック画像伝送を実現するための新しいバックボーンとしてビジョントランスフォーマー(ViT)を再設計することを目指しています。これまでの研究は畳み込みニューラル ネットワーク (CNN) に基づいて構築されていましたが、これはグローバルな依存関係をキャプチャするのに非効率的であり、特に高解像度の画像ではエンド ツー エンドの伝送パフォーマンスが低下していました。これに取り組むために、提案された WITT は、長距離情報を抽出するためのより機能的なバックボーンとして Swin Transformers を採用しています。画像分類タスクの ViT とは異なり、WITT は、ワイヤレス チャネルの影響を考慮しながら、画像送信用に高度に最適化されています。具体的には、チャネル状態情報に従って潜在表現をスケーリングする空間変調モジュールを提案します。これにより、単一のモデルがさまざまなチャネル条件を処理する能力が向上します。その結果、広範な実験により、WITT がさまざまな画像解像度、歪みメトリック、およびチャネル条件に対してより優れたパフォーマンスを達成することが確認されています。コードは https://github.com/KeYang8/WITT で入手できます。
In this paper, we aim to redesign the vision Transformer (ViT) as a new backbone to realize semantic image transmission, termed wireless image transmission transformer (WITT). Previous works build upon convolutional neural networks (CNNs), which are inefficient in capturing global dependencies, resulting in degraded end-to-end transmission performance especially for high-resolution images. To tackle this, the proposed WITT employs Swin Transformers as a more capable backbone to extract long-range information. Different from ViTs in image classification tasks, WITT is highly optimized for image transmission while considering the effect of the wireless channel. Specifically, we propose a spatial modulation module to scale the latent representations according to channel state information, which enhances the ability of a single model to deal with various channel conditions. As a result, extensive experiments verify that our WITT attains better performance for different image resolutions, distortion metrics, and channel conditions. The code is available at https://github.com/KeYang8/WITT.