arXiv reaDer
不確実性ガイダンスを使用したスケーラブルな画像圧縮のための解像度フィールドの探索
Exploring Resolution Fields for Scalable Image Compression with Uncertainty Guidance
最近、学習ベースの画像圧縮方法が大幅に進歩し、従来のコーディング標準を超えています。それらのほとんどは、特定の圧縮率で最高のレート歪みパフォーマンスを達成することを優先するため、複雑でさまざまな制約があるさまざまなアプリケーションでの柔軟性と適応性が制限されます。この研究では、スケーラブルな画像圧縮における解像度フィールドの可能性を探求し、より適応性があり汎用性の高い圧縮のニーズを満たす逆ピラミッド ネットワーク (RPN) を提案します。具体的には、RPN は最初に圧縮ピラミッドを構築し、トップダウン方式でさまざまなレベルで解像度フィールドを生成します。重要な設計は、隣接するレベル間のクロス解像度コンテキスト マイニング モジュールにあります。このモジュールは、特徴の強化と蒸留を実行して、意味のあるコンテキスト化された情報をマイニングし、不要な冗長性を削除して、有益な解像度フィールドを残差事前分布として生成します。スケーラビリティは、プログレッシブ ビットストリームの再利用と、さまざまなレベルで変化する解像度フィールドの組み込みによって実現されます。さらに、隣接する圧縮レベル間で、下位のデコードされた表現からの偶然の不確実性を明示的に定量化し、上位レベルの圧縮パラメータを更新するための不確実性ガイド損失を開発し、ネットワークがテクスチャーされたピクセルに集中するように強制する逆ピラミッド プロセスを形成します。より信頼性が高く正確な再構成のための高い分散。 RPN は、解像度フィールドの探索と不確実性のガイダンスをピラミッド方式で組み合わせることで、空間的かつ高品質でスケーラブルな画像圧縮を効果的に実現できます。実験では、既存の古典的および深層学習ベースのスケーラブルなコーデックに対する RPN の優位性が示されています。コードは https://github.com/JGIroro/RPNSIC で入手できます。
Recently, there are significant advancements in learning-based image compression methods surpassing traditional coding standards. Most of them prioritize achieving the best rate-distortion performance for a particular compression rate, which limits their flexibility and adaptability in various applications with complex and varying constraints. In this work, we explore the potential of resolution fields in scalable image compression and propose the reciprocal pyramid network (RPN) that fulfills the need for more adaptable and versatile compression. Specifically, RPN first builds a compression pyramid and generates the resolution fields at different levels in a top-down manner. The key design lies in the cross-resolution context mining module between adjacent levels, which performs feature enriching and distillation to mine meaningful contextualized information and remove unnecessary redundancy, producing informative resolution fields as residual priors. The scalability is achieved by progressive bitstream reusing and resolution field incorporation varying at different levels. Furthermore, between adjacent compression levels, we explicitly quantify the aleatoric uncertainty from the bottom decoded representations and develop an uncertainty-guided loss to update the upper-level compression parameters, forming a reverse pyramid process that enforces the network to focus on the textured pixels with high variance for more reliable and accurate reconstruction. Combining resolution field exploration and uncertainty guidance in a pyramid manner, RPN can effectively achieve spatial and quality scalable image compression. Experiments show the superiority of RPN against existing classical and deep learning-based scalable codecs. Code will be available at https://github.com/JGIroro/RPNSIC.
updated: Thu Jun 15 2023 08:26:24 GMT+0000 (UTC)
published: Thu Jun 15 2023 08:26:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト