arXiv reaDer
学習したビデオ圧縮のための時間的コンテキストマイニング
Temporal Context Mining for Learned Video Compression
私たちは、より良い学習と時間的コンテキストの利用に特に焦点を当てて、エンドツーエンドで学習したビデオ圧縮に取り組んでいます。時間的コンテキストマイニングでは、以前に再構築されたフレームだけでなく、伝播された特徴も一般化されたデコードされた画像バッファに格納することを提案します。保存された伝播された特徴から、マルチスケールの時間的コンテキストを学習し、学習した時間的コンテキストを、コンテキストエンコーダーデコーダー、フレームジェネレーター、時間的コンテキストエンコーダーなどの圧縮スキームのモジュールに再入力することを提案します。私たちのスキームは、並列化に適さない自己回帰エントロピーモデルを破棄して、より実用的なデコード時間を追求します。スキームをx264およびx265(それぞれ、H.264およびH.265の産業用ソフトウェアを表す)、およびH.264、H.265、およびH.266の公式リファレンスソフトウェア(JM、HM、およびVTM)と比較します。 、 それぞれ)。イントラ期間が32で、PSNRを対象としている場合、このスキームはH.265--HMよりも14.4%ビットレートの節約が優れています。 MS-SSIMを対象とした場合、このスキームはH.266--VTMよりも21.1%ビットレートの節約が優れています。
We address end-to-end learned video compression with a special focus on better learning and utilizing temporal contexts. For temporal context mining, we propose to store not only the previously reconstructed frames, but also the propagated features into the generalized decoded picture buffer. From the stored propagated features, we propose to learn multi-scale temporal contexts, and re-fill the learned temporal contexts into the modules of our compression scheme, including the contextual encoder-decoder, the frame generator, and the temporal context encoder. Our scheme discards the parallelization-unfriendly auto-regressive entropy model to pursue a more practical decoding time. We compare our scheme with x264 and x265 (representing industrial software for H.264 and H.265, respectively) as well as the official reference software for H.264, H.265, and H.266 (JM, HM, and VTM, respectively). When intra period is 32 and oriented to PSNR, our scheme outperforms H.265--HM by 14.4% bit rate saving; when oriented to MS-SSIM, our scheme outperforms H.266--VTM by 21.1% bit rate saving.
updated: Sat Nov 27 2021 08:55:16 GMT+0000 (UTC)
published: Sat Nov 27 2021 08:55:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト