VidTr: Video Transformer Without Convolutions
ビデオ分類のための分離可能な注意を備えたビデオトランスフォーマー(VidTr)を紹介します。一般的に使用されている3Dネットワークと比較すると、VidTrは、積み重ねられた注意を介して時空間情報を集約し、より高い効率でより優れたパフォーマンスを提供できます。最初にバニラビデオトランスフォーマーを紹介し、トランスフォーマーモジュールが生のピクセルから時空間モデリングを実行できることを示しますが、メモリ使用量は多くなります。次に、同じパフォーマンスを維持しながらメモリコストを3.3分の1に削減するVidTrを紹介します。モデルをさらに最適化するために、注意のための標準偏差ベースのtopKプーリング(pool_topK \ _std)を提案します。これは、時間的次元に沿って情報のない特徴を削除することによって計算を削減します。 VidTrは、一般的に使用される5つのデータセットで最先端のパフォーマンスを実現し、計算要件が低く、設計の効率と有効性の両方を示しています。最後に、エラー分析と視覚化は、VidTrが長期的な時間的推論を必要とするアクションの予測に特に優れていることを示しています。
We introduce Video Transformer (VidTr) with separable-attention for video classification. Comparing with commonly used 3D networks, VidTr is able to aggregate spatio-temporal information via stacked attentions and provide better performance with higher efficiency. We first introduce the vanilla video transformer and show that transformer module is able to perform spatio-temporal modeling from raw pixels, but with heavy memory usage. We then present VidTr which reduces the memory cost by 3.3× while keeping the same performance. To further optimize the model, we propose the standard deviation based topK pooling for attention (pool_topK\_std), which reduces the computation by dropping non-informative features along temporal dimension. VidTr achieves state-of-the-art performance on five commonly used datasets with lower computational requirement, showing both the efficiency and effectiveness of our design. Finally, error analysis and visualization show that VidTr is especially good at predicting actions that require long-term temporal reasoning.
updated: Fri Oct 15 2021 23:41:28 GMT+0000 (UTC)
published: Fri Apr 23 2021 17:59:01 GMT+0000 (UTC)
