arXiv reaDer
ビデオ分類のためのビジー静かなビデオ解きほぐし
Busy-Quiet Video Disentangling for Video Classification
ビデオデータでは、移動領域からのビジーモーションの詳細が、周波数領域の特定の周波数帯域幅内で伝達されます。一方、ビデオデータの残りの周波数は、かなりの冗長性を備えた静かな情報でエンコードされているため、生のRGBフレームを入力として受け取る既存のビデオモデルでは処理効率が低くなります。この論文では、重要な忙しい情報の処理にはより強い計算を割り当て、静かな情報の処理にはより少ない計算を割り当てることを検討します。生のビデオデータの静かな情報から忙しい情報を分離するためのトレーニング可能なモーションバンドパスモジュール(MBPM)を設計します。 MBPMを2パスウェイCNNアーキテクチャに埋め込むことにより、ビジークワイエットネット(BQN)を定義します。 BQNの効率は、2つの経路によって処理される機能空間の冗長性を回避することによって決定されます。1つは低解像度の静かな機能で動作し、もう1つはビジー機能を処理します。提案されたBQNは、Something-Something V1、Kinetics400、UCF101、およびHMDB51データセットの最近の多くのビデオ処理モデルよりも優れています。
In video data, busy motion details from moving regions are conveyed within a specific frequency bandwidth in the frequency domain. Meanwhile, the rest of the frequencies of video data are encoded with quiet information with substantial redundancy, which causes low processing efficiency in existing video models that take as input raw RGB frames. In this paper, we consider allocating intenser computation for the processing of the important busy information and less computation for that of the quiet information. We design a trainable Motion Band-Pass Module (MBPM) for separating busy information from quiet information in raw video data. By embedding the MBPM into a two-pathway CNN architecture, we define a Busy-Quiet Net (BQN). The efficiency of BQN is determined by avoiding redundancy in the feature space processed by the two pathways: one operating on Quiet features of low-resolution, while the other processes Busy features. The proposed BQN outperforms many recent video processing models on Something-Something V1, Kinetics400, UCF101 and HMDB51 datasets.
updated: Wed Oct 13 2021 14:21:41 GMT+0000 (UTC)
published: Mon Mar 29 2021 13:03:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト