arXiv reaDer
神経物体検出のための顕著性駆動型の多用途ビデオコーディング
Saliency-Driven Versatile Video Coding for Neural Object Detection
人間のための顕著性主導の画像およびビデオコーディングは、最近重要性を増している。この論文では、最新のビデオコーディング標準であるVersatile Video Coding(VVC)を使用して、マシンタスクのビデオコーディングのためのこのような顕著性駆動型コーディングフレームワークを提案します。エンコードする前に顕著な領域を決定するために、リアルタイム対応のオブジェクト検出ネットワークYou Only Look Once〜(YOLO)を新しい決定基準と組み合わせて使用します。マシンのコーディング品質を測定するために、最先端のオブジェクトセグメンテーションネットワークマスクR-CNNがデコードされたフレームに適用されました。広範なシミュレーションから、一定の品質の参照VVCと比較して、提案された顕著性駆動型フレームワークを適用することにより、デコーダー側で同じ検出精度で最大29%のビットレートを節約できることがわかりました。さらに、YOLOを他のより伝統的な顕著性検出方法と比較します。
Saliency-driven image and video coding for humans has gained importance in the recent past. In this paper, we propose such a saliency-driven coding framework for the video coding for machines task using the latest video coding standard Versatile Video Coding (VVC). To determine the salient regions before encoding, we employ the real-time-capable object detection network You Only Look Once~(YOLO) in combination with a novel decision criterion. To measure the coding quality for a machine, the state-of-the-art object segmentation network Mask R-CNN was applied to the decoded frame. From extensive simulations we find that, compared to the reference VVC with a constant quality, up to 29 % of bitrate can be saved with the same detection accuracy at the decoder side by applying the proposed saliency-driven framework. Besides, we compare YOLO against other, more traditional saliency detection methods.
updated: Fri Mar 11 2022 14:27:43 GMT+0000 (UTC)
published: Fri Mar 11 2022 14:27:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト