arXiv reaDer
分解、圧縮、および合成ベースのビデオコーディング:参照ベースの超解像によるニューラルアプローチ
Decomposition, Compression, and Synthesis Based Video Coding: A Neural Approach Through Reference-Based Super Resolution
より高い圧縮効率を追求するための潜在的な解決策は、ダウンサンプリングベースのビデオコーディング(DSVC)です。この場合、入力ビデオは最初に比較的低い解像度でエンコードするためにダウンスケールされ、次にデコードされたフレームがディープニューラルネットワーク(DNN)を介して超解像されます。 )。ただし、コーディングゲインは、均一な解像度のサンプリングによって高周波成分が大幅に失われるか、既存のDSVCメソッドで不均一にサンプリングされたフレーム全体で情報が不十分に集約されるために制限されることがよくあります。これに対処するために、最初に入力ビデオを、豊富な空間詳細を保持するネイティブの空間解像度でそれぞれの空間テクスチャフレーム(STF)に分解し、モーションを保持するより低い空間解像度で他の時間モーションフレーム(TMF)に分解することを提案します。滑らかさ;次に、一般的なビデオコーダーを使用してそれらを一緒に圧縮します。最後に、デコードされたSTFとTMFを合成して、ネイティブ入力と同じ解像度で忠実度の高いビデオを再構築します。この作業では、バイキュービックサンプリングを分解に適用し、Versatile Video Coding(VVC)準拠のコーデックを圧縮に適用し、合成部分に焦点を当てます。このようなクロスレゾリューション合成は、リファレンスベースのスーパーレゾリューション(RefSR)によって容易になります。具体的には、動き補償ネットワーク(MCN)がTMFで考案され、テクスチャ転送ネットワーク(TTN)を使用して対応するSTFと共同で処理される時間的動きの特徴を効率的に整列および集約し、空間の詳細をより適切に増強します。 -サンプリングノイズは、レート歪み(RD)効率などを向上させることで効果的に軽減できます。
In pursuit of higher compression efficiency, a potential solution is the Down-Sampling based Video Coding (DSVC) where a input video is first downscaled for encoding at a relatively lower resolution, and then decoded frames are super-resolved through deep neural networks (DNNs). However, the coding gains are often bounded due to either uniform resolution sampling induced severe loss of high-frequency component, or insufficient information aggregation across non-uniformly sampled frames in existing DSVC methods. To address this, we propose to first decompose the input video into respective spatial texture frames (STFs) at its native spatial resolution that preserve the rich spatial details, and the other temporal motion frames (TMFs) at a lower spatial resolution that retain the motion smoothness; then compress them together using any popular video coder; and finally synthesize decoded STFs and TMFs for high-fidelity video reconstruction at the same resolution as its native input. This work simply applies the bicubic sampling in decomposition and Versatile Video Coding (VVC) compliant codec in compression, and puts the focus on the synthesis part. Such cross-resolution synthesis can be facilitated by Reference-based Super-Resolution (RefSR). Specifically, a motion compensation network (MCN) is devised on TMFs to efficiently align and aggregate temporal motion features that will be jointly processed with corresponding STFs using a texture transfer network (TTN) to better augment spatial details, by which the compression and resolution re-sampling noises can be effectively alleviated with better rate-distortion (R-D) efficiency, etc.
updated: Sun Apr 25 2021 06:16:32 GMT+0000 (UTC)
published: Tue Dec 01 2020 17:23:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト