arXiv reaDer
ニューラルビデオ圧縮のための生成モデリングからの洞察
Insights from Generative Modeling for Neural Video Compression
最近の機械学習の研究では、VAE などの深い生成モデルと、学習された圧縮で使用されるレート歪み損失との間の関連性が明らかになりましたが、この研究のほとんどは画像に焦点を当てています。同様の精神で、私たちは、最近提案されたニューラルビデオコーディングアルゴリズムを、深い自己回帰および潜在変数モデリングのレンズを通して見ます。我々は、これらのコーデックを一般化された確率的時間自己回帰変換のインスタンスとして提示し、正規化フローと構造化事前分布に触発されたさらなる改善のための新しい手段を提案します。私たちは、高解像度ビデオで最先端のビデオ圧縮パフォーマンスを実現するいくつかのアーキテクチャを提案し、それらのトレードオフと除去について説明します。特に、(i) 改善された時間的自己回帰変換、(ii) 構造化された時間的依存関係を備えた改善されたエントロピー モデル、および (iii) アルゴリズムの可変ビットレート バージョンを提案します。私たちの改良は既存のモデルの大規模なクラスと互換性があるため、生成モデリングの観点がニューラルビデオコーディング分野を進歩させることができるというさらなる証拠を提供します。
While recent machine learning research has revealed connections between deep generative models such as VAEs and rate-distortion losses used in learned compression, most of this work has focused on images. In a similar spirit, we view recently proposed neural video coding algorithms through the lens of deep autoregressive and latent variable modeling. We present these codecs as instances of a generalized stochastic temporal autoregressive transform, and propose new avenues for further improvements inspired by normalizing flows and structured priors. We propose several architectures that yield state-of-the-art video compression performance on high-resolution video and discuss their tradeoffs and ablations. In particular, we propose (i) improved temporal autoregressive transforms, (ii) improved entropy models with structured and temporal dependencies, and (iii) variable bitrate versions of our algorithms. Since our improvements are compatible with a large class of existing models, we provide further evidence that the generative modeling viewpoint can advance the neural video coding field.
updated: Sun Jul 09 2023 23:05:59 GMT+0000 (UTC)
published: Wed Jul 28 2021 02:19:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト