ビデオを理解するには、通常、展開を禁止する高価な計算が必要ですが、ビデオには悪用される可能性のある時空の冗長性が含まれています。特に、圧縮ビデオドメインのモーションベクトルと残差を直接操作すると、膨大なストレージ容量を必要とする生のビデオを使用しないため、計算が大幅に高速化されます。既存の方法は、このタスクを複数のモダリティの問題として扱います。このペーパーでは、まったく異なる方法でタスクにアプローチしています。圧縮ストリームからのデータを1つのユニットクリップとして見て、残りのフレームが生のドメインからの元のRGBフレームを置き換えることができることを提案します。さらに、圧縮されたドメインのネットワークが生のドメインの教師ネットワークを模倣するのを助けるために、教師と学生の方法を使用しています。圧縮データを使用して生のビデオデータの最先端の精度に近づく3つの主要なデータセット(HMDB51、UCF1、およびKinetics)の実験を示します。私たちのモデルMFCD-Netは、圧縮ドメインで従来の方法よりも優れており、さらに重要なことには、モデルのパラメーターが11倍、フロップが3倍少ないため、ビデオ認識推論の効率が劇的に向上します。このアプローチにより、パフォーマンスを加速しながら精度を損なうことなく、圧縮ドメインでのみニューラルネットワークを適用できます。
Video understanding usually requires expensive computation that prohibits its deployment, yet videos contain significant spatiotemporal redundancy that can be exploited. In particular, operating directly on the motion vectors and residuals in the compressed video domain can significantly accelerate the compute, by not using the raw videos which demand colossal storage capacity. Existing methods approach this task as a multiple modalities problem. In this paper we are approaching the task in a completely different way; we are looking at the data from the compressed stream as a one unit clip and propose that the residual frames can replace the original RGB frames from the raw domain. Furthermore, we are using teacher-student method to aid the network in the compressed domain to mimic the teacher network in the raw domain. We show experiments on three leading datasets (HMDB51, UCF1, and Kinetics) that approach state-of-the-art accuracy on raw video data by using compressed data. Our model MFCD-Net outperforms prior methods in the compressed domain and more importantly, our model has 11X fewer parameters and 3X fewer Flops, dramatically improving the efficiency of video recognition inference. This approach enables applying neural networks exclusively in the compressed domain without compromising accuracy while accelerating performance.