arXiv reaDer
ビデオ圧縮のための知覚的に最適化されたブロック運動推定の自己教師あり学習
Self-Supervised Learning of Perceptually Optimized Block Motion Estimates for Video Compression
ブロックベースのモーション推定は、ハイブリッドビデオコーデックで実行される相互予測プロセスに不可欠です。ブロック動きベクトル(MV)を計算するために使用される一般的なブロックマッチングベースの方法は、計算量の多い検索手順に依存しています。また、ブロックサイズが小さくなると悪化する可能性のあるアパーチャの問題もあります。さらに、一般的なコーデックで使用されるブロック一致基準は、デコード時に作成される動き補償画像の知覚品質の結果レベルを考慮していません。知覚的に最適化されたモーション推定というとらえどころのない目標の達成に向けて、フレームのトリプレットを入力として使用して、複数のブロックサイズでモーション推定を同時に実行できる多段畳み込みニューラルネットワークを使用した検索不要のブロックモーション推定フレームワークを提案します。 。この複合ブロック変換ネットワーク(CBT-Net)は、公開されている非圧縮ビデオコンテンツから作成した大規模なデータベースで、自己監視方式でトレーニングされます。マルチスケール構造類似性(MS-SSIM)損失関数を展開して、動き補償された予測フレームの知覚品質を最適化します。私たちの実験結果は、同等の予測誤差について、従来のブロックマッチングベースのモーション推定アルゴリズムと比較して、提案されたモデルの計算効率を強調しています。さらに、AV1で相互予測を実行するために使用すると、知覚的に最適化されたモデルのMV予測により、MS-SSIMおよびビデオマルチに対して平均Bjontegaard-delta rate(BD-rate)が-1.70%および-1.52%向上します。 -SVT-AV1エンコーダーで採用されているブロックマッチングベースのモーション推定システムと比較した、それぞれメソッドアセスメントフュージョン(VMAF)品質メトリック。
Block based motion estimation is integral to inter prediction processes performed in hybrid video codecs. Prevalent block matching based methods that are used to compute block motion vectors (MVs) rely on computationally intensive search procedures. They also suffer from the aperture problem, which can worsen as the block size is reduced. Moreover, the block matching criteria used in typical codecs do not account for the resulting levels of perceptual quality of the motion compensated pictures that are created upon decoding. Towards achieving the elusive goal of perceptually optimized motion estimation, we propose a search-free block motion estimation framework using a multi-stage convolutional neural network, which is able to conduct motion estimation on multiple block sizes simultaneously, using a triplet of frames as input. This composite block translation network (CBT-Net) is trained in a self-supervised manner on a large database that we created from publicly available uncompressed video content. We deploy the multi-scale structural similarity (MS-SSIM) loss function to optimize the perceptual quality of the motion compensated predicted frames. Our experimental results highlight the computational efficiency of our proposed model relative to conventional block matching based motion estimation algorithms, for comparable prediction errors. Further, when used to perform inter prediction in AV1, the MV predictions of the perceptually optimized model result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and -1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion (VMAF) quality metrics, respectively as compared to the block matching based motion estimation system employed in the SVT-AV1 encoder.
updated: Sun Dec 04 2022 04:55:09 GMT+0000 (UTC)
published: Tue Oct 05 2021 03:38:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト