最近の研究では、変分オートエンコーダー (VAE) とレート歪み理論の間の強力な理論的つながりが示されています。これに動機付けられて、生成モデリングの観点から非可逆画像圧縮の問題を検討します。もともとデータ (画像) 分布モデリング用に設計された ResNet VAE から始めて、量子化を意識した事後および事前を使用して潜在変数モデルを再設計し、画像圧縮のための簡単な量子化とエントロピー コーディングを可能にします。改善されたニューラル ネットワーク ブロックに加えて、強力で効率的な非可逆画像コーダーのクラスを提示し、自然な画像 (非可逆) 圧縮に関する以前の方法よりも優れています。私たちのモデルは、粗いものから細かいものへの方法で画像を圧縮し、並列エンコードとデコードをサポートしているため、GPU での高速実行につながります。
Recent work has shown a strong theoretical connection between variational autoencoders (VAEs) and the rate distortion theory. Motivated by this, we consider the problem of lossy image compression from the perspective of generative modeling. Starting from ResNet VAEs, which are originally designed for data (image) distribution modeling, we redesign their latent variable model using a quantization-aware posterior and prior, enabling easy quantization and entropy coding for image compression. Along with improved neural network blocks, we present a powerful and efficient class of lossy image coders, outperforming previous methods on natural image (lossy) compression. Our model compresses images in a coarse-to-fine fashion and supports parallel encoding and decoding, leading to fast execution on GPUs.