arXiv reaDer
暗黙的な局所尤度モデルによるニューラル画像圧縮の統計的忠実度の向上
Improving Statistical Fidelity for Neural Image Compression with Implicit Local Likelihood Models
非可逆画像圧縮は、元の画像の忠実性を維持しながら、画像をできるだけ少ないビットで表現することを目的としています。理論的結果は、PSNR や MS-SSIM などの歪みメトリクスを最適化すると、特に低ビットレートの場合に、元の画像の統計と再構成の統計に必然的に不一致が生じ、圧縮画像のぼやけとして現れることが多いことを示しています。これまでの研究では、敵対的識別子を利用して統計的忠実度を向上させてきました。しかし、生成モデリング タスクから採用されたこれらのバイナリ識別器は、画像圧縮には理想的ではない可能性があります。この論文では、VQ-VAE オートエンコーダを介して取得された量子化されたローカル画像表現を条件とする非バイナリ識別器を紹介します。 CLIC2020、DIV2K、および Kodak データセットに関する評価では、当社のディスクリミネーターが、歪み (PSNR など) と統計的忠実度 (FID など) を組み合わせて最適化するのに、最先端の HiFiC モデルの PatchGAN よりも効果的であることが示されています。 CLIC2020 では、ビット数が 30 ~ 40% 少ない HiFiC と同じ FID を取得します。
Lossy image compression aims to represent images in as few bits as possible while maintaining fidelity to the original. Theoretical results indicate that optimizing distortion metrics such as PSNR or MS-SSIM necessarily leads to a discrepancy in the statistics of original images from those of reconstructions, in particular at low bitrates, often manifested by the blurring of the compressed images. Previous work has leveraged adversarial discriminators to improve statistical fidelity. Yet these binary discriminators adopted from generative modeling tasks may not be ideal for image compression. In this paper, we introduce a non-binary discriminator that is conditioned on quantized local image representations obtained via VQ-VAE autoencoders. Our evaluations on the CLIC2020, DIV2K and Kodak datasets show that our discriminator is more effective for jointly optimizing distortion (e.g., PSNR) and statistical fidelity (e.g., FID) than the PatchGAN of the state-of-the-art HiFiC model. On CLIC2020, we obtain the same FID as HiFiC with 30-40% fewer bits.
updated: Fri Aug 11 2023 02:21:27 GMT+0000 (UTC)
published: Thu Jan 26 2023 15:55:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト