arXiv reaDer
機能ベースのレート歪み最適化を備えたマシンのビデオコーディング
Video Coding for Machines with Feature-Based Rate-Distortion Optimization
一般的な最先端のビデオコーデックは、レート歪み最適化(RDO)によって実現される、最終的な人間の観察者に特定の品質を提供することにより、低ビットレートを提供するように最適化されています。しかし、コンピュータビジョンタスクを解決するニューラルネットワークの着実な改善により、ますます多くのマルチメディアデータが人間によって観察されるのではなく、ニューラルネットワークによって直接分析されるようになりました。この論文では、デコードされたフレームがマシンシナリオのビデオコーディングでニューラルネットワークによって分析されるときに、コーディングパフォーマンスを向上させるように設計された標準準拠の機能ベースのRDO(FRDO)を提案します。その範囲で、VTM-8.0の従来のRDOのピクセルベースの歪みメトリックを、ニューラルネットワークの最初のレイヤーによって作成された特徴空間で計算された歪みメトリックに置き換えます。セグメンテーションネットワークマスクR-CNNとCityscapesデータセットからの単一画像を使用したいくつかのテストを通じて、提案されたFRDOとそのハイブリッドバージョンHFRDOを、機能空間で異なる歪み測定値を使用して従来のRDOと比較します。 HFRDOを使用すると、Bj \ ontegaardデルタレートおよび加重平均精度を品質メトリックとして使用するという点で、VTM-8.0実装と比較して最大5.49%のビットレートを節約できます。さらに、エンコーダーが量子化パラメーターを変更できるようにすると、提案されたHFRDOのコーディングゲインが従来のVTMと比較して最大9.95%になります。
Common state-of-the-art video codecs are optimized to deliver a low bitrate by providing a certain quality for the final human observer, which is achieved by rate-distortion optimization (RDO). But, with the steady improvement of neural networks solving computer vision tasks, more and more multimedia data is not observed by humans anymore, but directly analyzed by neural networks. In this paper, we propose a standard-compliant feature-based RDO (FRDO) that is designed to increase the coding performance, when the decoded frame is analyzed by a neural network in a video coding for machine scenario. To that extent, we replace the pixel-based distortion metrics in conventional RDO of VTM-8.0 with distortion metrics calculated in the feature space created by the first layers of a neural network. Throughout several tests with the segmentation network Mask R-CNN and single images from the Cityscapes dataset, we compare the proposed FRDO and its hybrid version HFRDO with different distortion measures in the feature space against the conventional RDO. With HFRDO, up to 5.49 % bitrate can be saved compared to the VTM-8.0 implementation in terms of Bj\ontegaard Delta Rate and using the weighted average precision as quality metric. Additionally, allowing the encoder to vary the quantization parameter results in coding gains for the proposed HFRDO of up 9.95 % compared to conventional VTM.
updated: Fri Mar 11 2022 12:49:50 GMT+0000 (UTC)
published: Fri Mar 11 2022 12:49:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト