従来のビデオ圧縮(VC)方式は、動き補償変換コーディングに基づいており、モーション推定、モードと量子化パラメーターの選択、およびエントロピーコーディングのステップは、エンドツーエンドの最適化問題の組み合わせの性質により、個別に最適化されます。学習したVCにより、非線形変換、モーション、およびエントロピーモデルのエンドツーエンドのレート歪み(RD)最適化トレーニングを同時に実行できます。学習したVCに関するほとんどの作業では、連続するフレームのペアで平均化されたRD損失に基づいて、シーケンシャルビデオコーデックのエンドツーエンドの最適化を検討しています。従来のVCでは、過去と将来の両方の参照フレームを使用できるため、階層型の双方向コーディングが順次圧縮よりも優れていることはよく知られています。この論文は、階層的動き補償予測とエンドツーエンド最適化の利点を組み合わせた、学習された階層的双方向ビデオコーデック(LHBDC)を提案します。実験結果は、PSNRとMS-SSIMの両方でこれまでに学習したVCスキームについて報告されている最高のRD結果を達成していることを示しています。従来のビデオコーデックと比較して、エンドツーエンドで最適化されたコーデックのRDパフォーマンスは、PSNRとMS-SSIMのx265とSVT-HEVCエンコーダ(「非常に遅い」プリセット)の両方、およびMS-のHM16.23リファレンスソフトウェアのパフォーマンスを上回っています。 SSIM。学習したマスキング、フローフィールドサブサンプリング、時間的フローベクトル予測などの提案された新しいツールによるパフォーマンスの向上を示すアブレーション研究を紹介します。結果を再現するためのモデルと手順は、https://github.com/makinyilmaz/LHBDC/にあります。
Conventional video compression (VC) methods are based on motion compensated transform coding, and the steps of motion estimation, mode and quantization parameter selection, and entropy coding are optimized individually due to the combinatorial nature of the end-to-end optimization problem. Learned VC allows end-to-end rate-distortion (R-D) optimized training of nonlinear transform, motion and entropy model simultaneously. Most works on learned VC consider end-to-end optimization of a sequential video codec based on R-D loss averaged over pairs of successive frames. It is well-known in conventional VC that hierarchical, bi-directional coding outperforms sequential compression because of its ability to use both past and future reference frames. This paper proposes a learned hierarchical bi-directional video codec (LHBDC) that combines the benefits of hierarchical motion-compensated prediction and end-to-end optimization. Experimental results show that we achieve the best R-D results that are reported for learned VC schemes to date in both PSNR and MS-SSIM. Compared to conventional video codecs, the R-D performance of our end-to-end optimized codec outperforms those of both x265 and SVT-HEVC encoders ("veryslow" preset) in PSNR and MS-SSIM as well as HM 16.23 reference software in MS-SSIM. We present ablation studies showing performance gains due to proposed novel tools such as learned masking, flow-field subsampling, and temporal flow vector prediction. The models and instructions to reproduce our results can be found in https://github.com/makinyilmaz/LHBDC/