arXiv reaDer
意味論的ビデオコーディング:AIタスクの構造化ビットストリームに静的-動的手がかりを注入する
Semantically Video Coding: Instill Static-Dynamic Clues into Structured Bitstream for AI Tasks
従来のメディアコーディングスキームは、通常、画像/ビデオをセマンティック不明のバイナリストリームにエンコードしますが、ビットストリームレベルでダウンストリームのインテリジェントタスクを直接サポートすることはできません。 Semantically Structured Image Coding(SSIC)フレームワークは、Semantically Structured Bitstream(SSB)を介して、デコードフリーまたは部分デコードの画像インテリジェントタスク分析を可能にする最初の試みを行います。ただし、SSICは画像コーディングのみを考慮し、生成されたSSBには静的オブジェクト情報のみが含まれます。この論文では、ビデオコーディングの観点から意味構造化コーディングの概念を拡張し、異種インテリジェントアプリケーションをサポートするための高度な意味構造化ビデオコーディング(SSVC)フレームワークを提案します。ビデオ信号には、より豊富な動的モーション情報が含まれており、隣接するフレーム間の類似性により、より多くの冗長性が存在します。したがって、静的オブジェクトの特性と動的な動きの手がかりの両方を含む、SSVCの意味的に構造化されたビットストリーム(SSB)の再定式化を提示します。具体的には、オプティカルフローを導入して、連続モーション情報をエンコードし、予測コーディングアーキテクチャを介してフレーム間の冗長性を減らします。次に、オプティカルフローと残差情報をSSBに再編成します。これにより、提案されたSSVCは、ビデオベースのダウンストリームインテリジェントアプリケーションをより適切にサポートできます。 。広範な実験は、提案されたSSVCフレームワークが、部分的にデコードされたビットストリームに応じて、複数のインテリジェントタスクを直接サポートできることを示しています。これにより、完全なビットストリームの解凍が回避されるため、インテリジェントな分析のためのビットレート/帯域幅の消費が大幅に節約されます。この点を、画像オブジェクトの検出、ポーズの推定、ビデオアクション認識、ビデオオブジェクトのセグメンテーションなどのタスクで検証します。
Traditional media coding schemes typically encode image/video into a semantic-unknown binary stream, which fails to directly support downstream intelligent tasks at the bitstream level. Semantically Structured Image Coding (SSIC) framework makes the first attempt to enable decoding-free or partial-decoding image intelligent task analysis via a Semantically Structured Bitstream (SSB). However, the SSIC only considers image coding and its generated SSB only contains the static object information. In this paper, we extend the idea of semantically structured coding from video coding perspective and propose an advanced Semantically Structured Video Coding (SSVC) framework to support heterogeneous intelligent applications. Video signals contain more rich dynamic motion information and exist more redundancy due to the similarity between adjacent frames. Thus, we present a reformulation of semantically structured bitstream (SSB) in SSVC which contains both static object characteristics and dynamic motion clues. Specifically, we introduce optical flow to encode continuous motion information and reduce cross-frame redundancy via a predictive coding architecture, then the optical flow and residual information are reorganized into SSB, which enables the proposed SSVC could better adaptively support video-based downstream intelligent applications. Extensive experiments demonstrate that the proposed SSVC framework could directly support multiple intelligent tasks just depending on a partially decoded bitstream. This avoids the full bitstream decompression and thus significantly saves bitrate/bandwidth consumption for intelligent analytics. We verify this point on the tasks of image object detection, pose estimation, video action recognition, video object segmentation, etc.
updated: Mon May 09 2022 02:54:11 GMT+0000 (UTC)
published: Tue Jan 25 2022 08:06:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト