デジタルメディアはユビキタスであり、その数は増え続けています。これには、効率的なストレージと伝送を維持するために、特にビデオの場合、圧縮技術を常に進化させる必要があります。この作業では、従来のビデオコーデックでは消去するのが難しいままである、ビデオデータの非ローカル冗長性を利用することを目指しています。低メモリと計算フットプリントに特に重点を置いて、畳み込みニューラルネットワークを設計します。これらのネットワークのパラメータは、エンコード時にオンザフライでトレーニングされ、デコードされたビデオ信号から残差信号を予測します。トレーニングプロセスが収束した後、パラメーターは圧縮され、基になるビデオコーデックのコードの一部として通知されます。この方法は、既存のビデオコーデックに適用して、コーディングゲインを向上させることができます。その一方で、計算量が少ないため、リソースに制約のある条件下でのアプリケーションが可能です。高効率ビデオコーディングの上に構築すると、計算の複雑さの約1%しか必要とせずに、事前トレーニング済みのノイズ除去CNNと同様のコーディングゲインを実現できます。広範な実験を通じて、ネットワーク設計の決定の有効性に関する洞察を提供します。さらに、実際のビデオ圧縮で満たされた条件下でアルゴリズムが安定したパフォーマンスを発揮することを実証します。このアルゴリズムは、非常に長いランダムアクセスセグメント(最大256フレーム)でパフォーマンスを大幅に損なうことなく実行され、適度なパフォーマンス低下が単一フレームにも適用される可能性があります高解像度の低遅延設定。
Digital media is ubiquitous and produced in ever-growing quantities. This necessitates a constant evolution of compression techniques, especially for video, in order to maintain efficient storage and transmission. In this work, we aim at exploiting non-local redundancies in video data that remain difficult to erase for conventional video codecs. We design convolutional neural networks with a particular emphasis on low memory and computational footprint. The parameters of those networks are trained on the fly, at encoding time, to predict the residual signal from the decoded video signal. After the training process has converged, the parameters are compressed and signalled as part of the code of the underlying video codec. The method can be applied to any existing video codec to increase coding gains while its low computational footprint allows for an application under resource-constrained conditions. Building on top of High Efficiency Video Coding, we achieve coding gains similar to those of pretrained denoising CNNs while only requiring about 1% of their computational complexity. Through extensive experiments, we provide insights into the effectiveness of our network design decisions. In addition, we demonstrate that our algorithm delivers stable performance under conditions met in practical video compression: our algorithm performs without significant performance loss on very long random access segments (up to 256 frames) and with moderate performance drops can even be applied to single frames in high-resolution low delay settings.