arXiv reaDer
ConvNeXt-ChARM: 効率的なニューラル画像圧縮のための ConvNeXt ベースの変換
ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image Compression
ここ数年、ニューラル画像圧縮は研究や産業界から幅広い注目を集めており、レート歪み性能において従来の対応物を上回る、有望なエンドツーエンドのディープ ニューラル コーデックが生み出されています。アテンションベースの変換コーディングを含む現在の方法は、大幅な進歩にもかかわらず、特に不均質なテクスチャ画像領域において、再構築の忠実度を維持しながらコーディングレートを下げるという点で依然として改善する必要があります。これらのモデルでは、より多くのパラメーターとより長いデコード時間も必要になります。上記の課題に取り組むために、ハイパーおよび量子化された潜在表現からグローバルとローカルの両方のコンテキストをキャプチャする前に、計算効率の高いチャネルごとの自動回帰と組み合わせた、効率的な ConvNeXt ベースの変換コーディング フレームワークである ConvNeXt-ChARM を提案します。提案されたアーキテクチャは、高品質の画像を再構築しながら、コンテキスト情報を最大限に活用し、コンパクトな潜在表現を抽出するためにエンドツーエンドで最適化できます。広く使用されている 4 つのデータセットに関する実験結果では、ConvNeXt-ChARM が、汎用ビデオ コーディング (VVC) リファレンス エンコーダ (VTM-18.0) および最先端の画像圧縮方式SwinT-ChARMをそれぞれ学習しました。さらに、モデルのスケーリング研究を提供してアプローチの計算効率を検証し、次世代 ConvNet、つまり ConvNeXt と Swin Transformer の間のパフォーマンスのギャップを浮き彫りにするためにいくつかの客観的および主観的な分析を実施します。
Over the last few years, neural image compression has gained wide attention from research and industry, yielding promising end-to-end deep neural codecs outperforming their conventional counterparts in rate-distortion performance. Despite significant advancement, current methods, including attention-based transform coding, still need to be improved in reducing the coding rate while preserving the reconstruction fidelity, especially in non-homogeneous textured image areas. Those models also require more parameters and a higher decoding time. To tackle the above challenges, we propose ConvNeXt-ChARM, an efficient ConvNeXt-based transform coding framework, paired with a compute-efficient channel-wise auto-regressive prior to capturing both global and local contexts from the hyper and quantized latent representations. The proposed architecture can be optimized end-to-end to fully exploit the context information and extract compact latent representation while reconstructing higher-quality images. Experimental results on four widely-used datasets showed that ConvNeXt-ChARM brings consistent and significant BD-rate (PSNR) reductions estimated on average to 5.24% and 1.22% over the versatile video coding (VVC) reference encoder (VTM-18.0) and the state-of-the-art learned image compression method SwinT-ChARM, respectively. Moreover, we provide model scaling studies to verify the computational efficiency of our approach and conduct several objective and subjective analyses to bring to the fore the performance gap between the next generation ConvNet, namely ConvNeXt, and Swin Transformer.
updated: Wed Jul 12 2023 11:45:54 GMT+0000 (UTC)
published: Wed Jul 12 2023 11:45:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト