arXiv reaDer
ビデオ分類用のトークンシフトトランスフォーマー
Token Shift Transformer for Video Classification
Transformerは、1次元および2次元の信号の理解(NLPや画像コンテンツの理解など)で目覚ましい成功を収めています。畳み込みニューラルネットワークの潜在的な代替手段として、強力な解釈可能性、ハイパースケールデータに対する高い識別力、およびさまざまな長さの入力を処理する際の柔軟性というメリットを共有しています。ただし、そのエンコーダには当然、ペアワイズ自己注意などの計算集約型の操作が含まれているため、複雑な3次元ビデオ信号に適用すると計算負荷が大きくなります。このペーパーでは、各トランスエンコーダー内の時間的関係をモデル化するための、新しいゼロパラメーターゼロFLOP演算子であるトークンシフトモジュール(つまり、TokShift)を紹介します。具体的には、TokShiftは、部分的な[Class]トークン機能を隣接するフレーム間で一時的にほとんどシフトしません。次に、モジュールをプレーンな2Dビジョントランスフォーマーの各エンコーダーに密に接続して、3Dビデオ表現を学習します。 TokShiftトランスフォーマーは、ビデオを理解するための計算効率を備えた、純粋な畳み込みのないビデオトランスフォーマーパイロットであることは注目に値します。標準ベンチマークでの実験により、その堅牢性、有効性、および効率が検証されます。特に、8/12フレームの入力クリップを使用すると、TokShiftトランスフォーマーはSOTA精度を達成します。Kinetics-400で79.83%/ 80.40%、EGTEA-Gaze +で66.56%、UCF-101データセットで96.80%で、既存と同等またはそれ以上です。 SOTA畳み込み対応。私たちのコードはhttps://github.com/VideoNetworks/TokShift-Transformerでオープンソース化されています。
Transformer achieves remarkable successes in understanding 1 and 2-dimensional signals (e.g., NLP and Image Content Understanding). As a potential alternative to convolutional neural networks, it shares merits of strong interpretability, high discriminative power on hyper-scale data, and flexibility in processing varying length inputs. However, its encoders naturally contain computational intensive operations such as pair-wise self-attention, incurring heavy computational burden when being applied on the complex 3-dimensional video signals. This paper presents Token Shift Module (i.e., TokShift), a novel, zero-parameter, zero-FLOPs operator, for modeling temporal relations within each transformer encoder. Specifically, the TokShift barely temporally shifts partial [Class] token features back-and-forth across adjacent frames. Then, we densely plug the module into each encoder of a plain 2D vision transformer for learning 3D video representation. It is worth noticing that our TokShift transformer is a pure convolutional-free video transformer pilot with computational efficiency for video understanding. Experiments on standard benchmarks verify its robustness, effectiveness, and efficiency. Particularly, with input clips of 8/12 frames, the TokShift transformer achieves SOTA precision: 79.83%/80.40% on the Kinetics-400, 66.56% on EGTEA-Gaze+, and 96.80% on UCF-101 datasets, comparable or better than existing SOTA convolutional counterparts. Our code is open-sourced in: https://github.com/VideoNetworks/TokShift-Transformer.
updated: Thu Aug 05 2021 08:04:54 GMT+0000 (UTC)
published: Thu Aug 05 2021 08:04:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト