arXiv reaDer
GTA:ビデオアクションを理解するためのグローバルな時間的注意
GTA: Global Temporal Attention for Video Action Understanding
自己注意は、ペアワイズインタラクションを学習して長距離の依存関係をモデル化し、ビデオアクション認識を大幅に改善します。この論文では、ビデオの時間的モデリングに対する自己注意のより深い理解を求めています。最初に、すべてのピクセルを平坦化することによる時空間情報の絡み合ったモデリングが最適ではなく、フレーム間の時間的関係を明示的にキャプチャできないことを示します。この目的のために、我々はグローバル時間的注意(GTA)を導入します。これは、分離された方法で空間的注意に加えてグローバルな時間的注意を実行します。ピクセルと意味的に類似した領域の両方にGTAを適用して、さまざまなレベルの空間粒度で時間的関係をキャプチャします。インスタンス固有の注意マトリックスを計算する従来の自己注意とは異なり、GTAは、さまざまなサンプル間で一般化する時間構造をエンコードすることを目的としたグローバル注意マトリックスを直接学習します。さらに、クロスチャネルマルチヘッド方式でGTAを強化し、チャネルの相互作用を活用して時間モデリングを改善します。 2Dおよび3Dネットワークでの広範な実験は、私たちのアプローチが一貫して時間モデリングを強化し、3つのビデオアクション認識データセットで最先端のパフォーマンスを提供することを示しています。
Self-attention learns pairwise interactions to model long-range dependencies, yielding great improvements for video action recognition. In this paper, we seek a deeper understanding of self-attention for temporal modeling in videos. We first demonstrate that the entangled modeling of spatio-temporal information by flattening all pixels is sub-optimal, failing to capture temporal relationships among frames explicitly. To this end, we introduce Global Temporal Attention (GTA), which performs global temporal attention on top of spatial attention in a decoupled manner. We apply GTA on both pixels and semantically similar regions to capture temporal relationships at different levels of spatial granularity. Unlike conventional self-attention that computes an instance-specific attention matrix, GTA directly learns a global attention matrix that is intended to encode temporal structures that generalize across different samples. We further augment GTA with a cross-channel multi-head fashion to exploit channel interactions for better temporal modeling. Extensive experiments on 2D and 3D networks demonstrate that our approach consistently enhances temporal modeling and provides state-of-the-art performance on three video action recognition datasets.
updated: Thu Apr 08 2021 18:16:52 GMT+0000 (UTC)
published: Tue Dec 15 2020 18:58:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト