arXiv reaDer
GTA:ビデオアクションを理解するためのグローバルな時間的注意
GTA: Global Temporal Attention for Video Action Understanding
自己注意は、ドット積を介してペアワイズ相互作用を学習し、長距離の依存関係をモデル化して、ビデオアクション認識を大幅に改善します。この論文では、ビデオの時間的モデリングに対する自己注意のより深い理解を求めています。特に、すべてのピクセルを平坦化することによる時空間情報のもつれモデリングは最適ではなく、フレーム間の時間的関係を明示的にキャプチャできないことを示しています。グローバル時間的注意(GTA)を紹介します。これは、空間的注意に加えて、分離された方法でグローバルな時間的注意を実行します。インスタンス固有の注意マトリックスを計算する従来の自己注意とは異なり、GTAは、さまざまなサンプル間で一般化するための安定した時間構造を学習することを目的としたグローバル注意マトリックスをランダムに初期化します。 GTAは、クロスチャネルマルチヘッド方式でさらに強化され、機能の相互作用を活用して時間モデリングを改善します。 GTAは、ピクセルだけでなく、学習した変換行列によって自動的に識別される意味的に類似した領域にも適用されます。 2Dおよび3Dネットワークでの広範な実験は、私たちのアプローチが一貫して時間モデリングを強化し、3つのビデオアクション認識データセットで最先端のパフォーマンスを提供することを示しています。
Self-attention learns pairwise interactions via dot products to model long-range dependencies, yielding great improvements for video action recognition. In this paper, we seek a deeper understanding of self-attention for temporal modeling in videos. In particular, we demonstrate that the entangled modeling of spatial-temporal information by flattening all pixels is sub-optimal, failing to capture temporal relationships among frames explicitly. We introduce Global Temporal Attention (GTA), which performs global temporal attention on top of spatial attention in a decoupled manner. Unlike conventional self-attention that computes an instance-specific attention matrix, GTA randomly initializes a global attention matrix that is intended to learn stable temporal structures to generalize across different samples. GTA is further augmented with a cross-channel multi-head fashion to exploit feature interactions for better temporal modeling. We apply GTA not only on pixels but also on semantically similar regions identified automatically by a learned transformation matrix. Extensive experiments on 2D and 3D networks demonstrate that our approach consistently enhances the temporal modeling and provides state-of-the-art performance on three video action recognition datasets.
updated: Tue Dec 15 2020 18:58:21 GMT+0000 (UTC)
published: Tue Dec 15 2020 18:58:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト