近年、2D畳み込みネットワークベースのビデオアクション認識が広く人気を博しています。ただし、長距離の非線形時間関係モデリングと逆モーション情報モデリングの欠如によって制約されているため、既存のモデルのパフォーマンスは大幅に低下します。この緊急の問題に対処するために、自己監視(TTSN)を備えた驚くべきTemporal TransformerNetworkを紹介します。当社の高性能TTSNは、主に時間トランスモジュールと時間シーケンス自己監視モジュールで構成されています。簡潔に言えば、効率的な時間トランスフォーマーモジュールを利用して、非ローカルフレーム間の非線形時間依存性をモデル化します。これにより、複雑なモーションフィーチャ表現が大幅に強化されます。私たちが採用している時間シーケンス自己監視モジュールは、ビデオフレームのシーケンスを逆にする「ランダムバッチランダムチャネル」の合理化された戦略を採用し、逆時間次元からのモーション情報表現の堅牢な抽出を可能にし、モデルの一般化機能を向上させます。 3つの広く使用されているデータセット(HMDB51、UCF101、およびSomething-something V1)での広範な実験により、提案されたTTSNは、アクション認識の最先端のパフォーマンスを正常に達成するため、有望であることが決定的に示されました。
In recent years, 2D Convolutional Networks-based video action recognition has encouragingly gained wide popularity; However, constrained by the lack of long-range non-linear temporal relation modeling and reverse motion information modeling, the performance of existing models is, therefore, undercut seriously. To address this urgent problem, we introduce a startling Temporal Transformer Network with Self-supervision (TTSN). Our high-performance TTSN mainly consists of a temporal transformer module and a temporal sequence self-supervision module. Concisely speaking, we utilize the efficient temporal transformer module to model the non-linear temporal dependencies among non-local frames, which significantly enhances complex motion feature representations. The temporal sequence self-supervision module we employ unprecedentedly adopts the streamlined strategy of "random batch random channel" to reverse the sequence of video frames, allowing robust extractions of motion information representation from inversed temporal dimensions and improving the generalization capability of the model. Extensive experiments on three widely used datasets (HMDB51, UCF101, and Something-something V1) have conclusively demonstrated that our proposed TTSN is promising as it successfully achieves state-of-the-art performance for action recognition.