データ入力モダリティは、ビデオアクション認識において重要な役割を果たします。通常、入力にはRGB、フローストリーム、圧縮データの3種類があります。この論文では、新しい入力モダリティであるグレーストリームを提案しました。具体的には、RGBと同じサイズの積み重ねられた連続する3つのグレー画像を入力として取得すると、ビデオデコードデータからRGBへの変換プロセスをスキップできるだけでなく、ゼロ計算およびゼロパラメータでの時空間モデリング機能も向上します。一方、制御可能な計算バジェット内のチャネル機能レベルで時間的関係をキャプチャする1D Identityチャネルごとの時空間畳み込み(1D-ICSC)を提案しました(パラメータGおよびRによる)。最後に、Kinetics、Something-Something、HMDB-51、UCF-101などのいくつかのアクション認識ベンチマークでその有効性と効率を確認し、印象的な結果を達成します。
Data input modality plays an important role in video action recognition. Normally, there are three types of input: RGB, flow stream and compressed data. In this paper, we proposed a new input modality: gray stream. Specifically, taken the stacked consecutive 3 gray images as input, which is the same size of RGB, can not only skip the conversion process from video decoding data to RGB, but also improve the spatio-temporal modeling ability at zero computation and zero parameters. Meanwhile, we proposed a 1D Identity Channel-wise Spatio-temporal Convolution(1D-ICSC) which captures the temporal relationship at channel-feature level within a controllable computation budget(by parameters G & R). Finally, we confirm its effectiveness and efficiency on several action recognition benchmarks, such as Kinetics, Something-Something, HMDB-51 and UCF-101, and achieve impressive results.