arXiv reaDer
Transformer-CNN アーキテクチャが混在する学習済み画像圧縮
Learned Image Compression with Mixed Transformer-CNN Architectures
学習画像圧縮 (LIC) メソッドは、従来の画像圧縮標準と比較して、有望な進歩と優れたレート歪み性能を示しています。既存の LIC メソッドのほとんどは、畳み込みニューラル ネットワーク ベース (CNN ベース) またはトランスフォーマー ベースであり、それぞれに異なる利点があります。両方の利点を活用することは、検討する価値のあるポイントであり、2 つの課題があります。1) 2 つの方法を効果的に融合するにはどうすればよいか? 2)適切な複雑さでより高いパフォーマンスを達成するにはどうすればよいですか?このホワイト ペーパーでは、CNN のローカル モデリング機能とトランスフォーマーの非ローカル モデリング機能を組み込み、画像圧縮モデルの全体的なアーキテクチャを改善する、制御可能な複雑さを備えた効率的な並列 Transformer-CNN Mixture (TCM) ブロックを提案します。さらに、エントロピー推定モデルとアテンション モジュールの最近の進歩に触発されて、チャネル スクイーズを使用することにより、パラメーター効率の高い swin-transformer ベースのアテンション (SWAtten) モジュールを備えたチャネル単位のエントロピー モデルを提案します。実験結果は、提案された方法が、既存のLIC方法と比較して、3つの異なる解像度データセット(つまり、Kodak、Tecnick、CLIC Professional Validation)で最先端のレート歪み性能を達成することを示しています。コードは https://github.com/jmliu206/LIC_TCM にあります。
Learned image compression (LIC) methods have exhibited promising progress and superior rate-distortion performance compared with classical image compression standards. Most existing LIC methods are Convolutional Neural Networks-based (CNN-based) or Transformer-based, which have different advantages. Exploiting both advantages is a point worth exploring, which has two challenges: 1) how to effectively fuse the two methods? 2) how to achieve higher performance with a suitable complexity? In this paper, we propose an efficient parallel Transformer-CNN Mixture (TCM) block with a controllable complexity to incorporate the local modeling ability of CNN and the non-local modeling ability of transformers to improve the overall architecture of image compression models. Besides, inspired by the recent progress of entropy estimation models and attention modules, we propose a channel-wise entropy model with parameter-efficient swin-transformer-based attention (SWAtten) modules by using channel squeezing. Experimental results demonstrate our proposed method achieves state-of-the-art rate-distortion performances on three different resolution datasets (i.e., Kodak, Tecnick, CLIC Professional Validation) compared to existing LIC methods. The code is at https://github.com/jmliu206/LIC_TCM.
updated: Mon Mar 27 2023 08:19:01 GMT+0000 (UTC)
published: Mon Mar 27 2023 08:19:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト