画像圧縮にディープ生成モデルを使用すると、ニューラルビデオ圧縮はまだ初期段階ですが、従来のコーデックよりも優れたパフォーマンスの向上につながりました。ここでは、ビデオに焦点を当てて時間シーケンスを圧縮するための、エンドツーエンドの深い生成モデリングアプローチを提案します。私たちのアプローチは、シーケンシャルデータの変分オートエンコーダ(VAE)モデルに基づいて構築され、ニューラルイメージ圧縮に関する最近の研究とそれらを組み合わせています。このアプローチは、元のシーケンスを低次元表現に変換することと、シーケンシャルVAEの予測に従ってこの表現を離散化およびエントロピーコーディングすることを共同で学習します。さまざまな複雑さと多様性を備えたパブリックデータセットからの小さなビデオのレート歪み評価は、一般的なビデオコンテンツのトレーニングを受けた場合、このモデルが競争力のある結果をもたらすことを示しています。特殊なコンテンツでモデルをトレーニングすると、極端な圧縮パフォーマンスが実現します。
The usage of deep generative models for image compression has led to impressive performance gains over classical codecs while neural video compression is still in its infancy. Here, we propose an end-to-end, deep generative modeling approach to compress temporal sequences with a focus on video. Our approach builds upon variational autoencoder (VAE) models for sequential data and combines them with recent work on neural image compression. The approach jointly learns to transform the original sequence into a lower-dimensional representation as well as to discretize and entropy code this representation according to predictions of the sequential VAE. Rate-distortion evaluations on small videos from public data sets with varying complexity and diversity show that our model yields competitive results when trained on generic video content. Extreme compression performance is achieved when training the model on specialized content.