arXiv reaDer
VCM 向けのエンドツーエンドの学習可能なマルチスケール特徴圧縮
End-to-End Learnable Multi-Scale Feature Compression for VCM
深層学習ベースのマシン ビジョン アプリケーションの普及により、マシン用ビデオ コーディング (VCM) と呼ばれる新しいタイプの圧縮が誕生しました。 VCM は、人間の視覚品質ではなくマシン ビジョンのパフォーマンスに最適化されているという点で、従来のビデオ コーディングとは異なります。 MPEG-VCM の特徴圧縮トラックでは、画像から抽出されたマルチスケール特徴が圧縮の対象となります。最近の特徴圧縮の研究では、多用途ビデオ コーディング (VVC) 標準ベースのアプローチにより、MPEG-VCM 特徴アンカーに対して最大 96% の BD レート削減を達成できることが実証されました。ただし、VVC は抽出された特徴用ではなく自然画像用に設計されているため、まだ最適とは言えません。さらに、VVC はエンコードの複雑さが高いため、パフォーマンスを犠牲にすることなく軽量のエンコーダを設計することが困難になります。これらの課題に対処するために、抽出された特徴に対するエンドツーエンドの最適化と軽量エンコーダーの設計の両方を可能にする、新しいマルチスケール特徴圧縮方法を提案します。提案されたモデルは、学習可能な圧縮器とマルチスケール特徴融合ネットワークを組み合わせて、マルチスケール特徴の冗長性を効果的に除去します。融合ネットワークと圧縮ネットワークを単にカスケード接続するのではなく、融合プロセスとエンコード プロセスをインターリーブ方式で統合します。私たちのモデルは、まず大規模な特徴をエンコードして潜在表現を取得し、次にその潜在を小規模な特徴と融合します。このプロセスは最小スケールの特徴が融合されるまで連続して実行され、最終段階で符号化された潜在的なデータがエントロピー符号化されて送信されます。結果は、私たちのモデルが以前のアプローチよりも BD レートを少なくとも 52% 削減し、物体検出のエンコード時間が 5 分の 1 から 27 分の 1 に短縮されたことを示しています。
The proliferation of deep learning-based machine vision applications has given rise to a new type of compression, so called video coding for machine (VCM). VCM differs from traditional video coding in that it is optimized for machine vision performance instead of human visual quality. In the feature compression track of MPEG-VCM, multi-scale features extracted from images are subject to compression. Recent feature compression works have demonstrated that the versatile video coding (VVC) standard-based approach can achieve a BD-rate reduction of up to 96% against MPEG-VCM feature anchor. However, it is still sub-optimal as VVC was not designed for extracted features but for natural images. Moreover, the high encoding complexity of VVC makes it difficult to design a lightweight encoder without sacrificing performance. To address these challenges, we propose a novel multi-scale feature compression method that enables both the end-to-end optimization on the extracted features and the design of lightweight encoders. The proposed model combines a learnable compressor with a multi-scale feature fusion network so that the redundancy in the multi-scale features is effectively removed. Instead of simply cascading the fusion network and the compression network, we integrate the fusion and encoding processes in an interleaved way. Our model first encodes a larger-scale feature to obtain a latent representation and then fuses the latent with a smaller-scale feature. This process is successively performed until the smallest-scale feature is fused and then the encoded latent at the final stage is entropy-coded for transmission. The results show that our model outperforms previous approaches by at least 52% BD-rate reduction and has ×5 to ×27 times less encoding time for object detection...
updated: Sun Jul 16 2023 19:50:49 GMT+0000 (UTC)
published: Thu Jun 29 2023 04:05:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト