テキストから画像への生成における拡散生成モデルは多大な成功を収めましたが、画像圧縮の分野でこの成功を再現することは困難であることがわかっています。この論文では、拡散によって特定のビットレートでの知覚品質が大幅に向上し、FID スコアで測定した最先端のアプローチである PO-ELIC や HiFiC を上回るパフォーマンスを示すことを実証します。これは、MSE をターゲットとするオートエンコーダとその後にさらにスコアベースのデコーダを組み合わせた、シンプルだが理論的に動機づけられた 2 段階のアプローチを使用して実現されます。ただし、これから示すように、実装の詳細が重要であり、最適な設計上の決定は、一般的なテキストから画像へのモデルとは大きく異なる可能性があります。
Despite the tremendous success of diffusion generative models in text-to-image generation, replicating this success in the domain of image compression has proven difficult. In this paper, we demonstrate that diffusion can significantly improve perceptual quality at a given bit-rate, outperforming state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is achieved using a simple but theoretically motivated two-stage approach combining an autoencoder targeting MSE followed by a further score-based decoder. However, as we will show, implementation details matter and the optimal design decisions can differ greatly from typical text-to-image models.