この論文では、エッジ コンピューティングにおけるビデオ アクション認識の計算オフロードについて研究します。効果的なセマンティック情報の抽出と圧縮を実現するために、セマンティック通信に続いて、フレーム アテンション モジュールと空間アテンション モジュールを含む新しい時空間アテンション ベースのオートエンコーダ (STAE) アーキテクチャを提案し、フレームと各フレーム内のピクセルの重要性を評価します。さらに、エントロピー エンコーディングを使用して圧縮データの統計的冗長性を削除し、通信オーバーヘッドをさらに削減します。受信機では、3D-2D CNN 結合アーキテクチャを活用し、受信データから時間情報と空間情報を同時に学習することで欠落情報を再構築し、精度を向上させる軽量デコーダを開発します。収束を高速化するために、段階的なアプローチを使用して、結果として得られる STAE ベースのビジョン トランスフォーマー (ViT_STAE) モデルをトレーニングします。実験結果では、ViT_STAE はわずか 5% の精度損失でビデオ データセット HMDB51 を 104 倍圧縮でき、最先端のベースライン DeepISC を上回るパフォーマンスを示しています。提案された ViT_STAE は、時変無線チャネル下で DeepISC ベースの ViT モデルよりも高速な推論と高精度を実現します。これは、時間制約下でより高い精度を保証する STAE の有効性を強調しています。
This paper studies the computational offloading of video action recognition in edge computing. To achieve effective semantic information extraction and compression, following semantic communication we propose a novel spatiotemporal attention-based autoencoder (STAE) architecture, including a frame attention module and a spatial attention module, to evaluate the importance of frames and pixels in each frame. Additionally, we use entropy encoding to remove statistical redundancy in the compressed data to further reduce communication overhead. At the receiver, we develop a lightweight decoder that leverages a 3D-2D CNN combined architecture to reconstruct missing information by simultaneously learning temporal and spatial information from the received data to improve accuracy. To fasten convergence, we use a step-by-step approach to train the resulting STAE-based vision transformer (ViT_STAE) models. Experimental results show that ViT_STAE can compress the video dataset HMDB51 by 104x with only 5% accuracy loss, outperforming the state-of-the-art baseline DeepISC. The proposed ViT_STAE achieves faster inference and higher accuracy than the DeepISC-based ViT model under time-varying wireless channel, which highlights the effectiveness of STAE in guaranteeing higher accuracy under time constraints.