拡散確率モデルは、最近、高品質の画像およびビデオ データの生成において目覚ましい成功を収めました。この作業では、このクラスの生成モデルを構築し、高解像度画像の非可逆圧縮の方法を紹介します。得られたコーデックは、DIffuson ベースの Residual Augmentation Codec (DIRAC) と呼ばれ、テスト時にレート、歪み、知覚のトレードオフをスムーズに通過できるようにする最初のニューラル コーデックであり、知覚品質において GAN ベースの方法と競合するパフォーマンスを得ます.さらに、拡散確率モデルからのサンプリングは非常にコストがかかることで知られていますが、圧縮設定ではステップ数を大幅に削減できることを示しています。
Diffusion probabilistic models have recently achieved remarkable success in generating high quality image and video data. In this work, we build on this class of generative models and introduce a method for lossy compression of high resolution images. The resulting codec, which we call DIffuson-based Residual Augmentation Codec (DIRAC), is the first neural codec to allow smooth traversal of the rate-distortion-perception tradeoff at test time, while obtaining competitive performance with GAN-based methods in perceptual quality. Furthermore, while sampling from diffusion probabilistic models is notoriously expensive, we show that in the compression setting the number of steps can be drastically reduced.