arXiv reaDer
ビデオ認識のための学習可能なアラインメントを使用した暗黙の時間モデリング
Implicit Temporal Modeling with Learnable Alignment for Video Recognition
対照的な言語イメージ事前トレーニング (CLIP) は、さまざまなイメージ タスクで顕著な成功を収めています。ただし、効果的な時間モデリングを使用して CLIP を拡張する方法は、まだ未解決の重大な問題です。既存の因数分解または結合時空間モデリングでは、効率とパフォーマンスがトレードオフになっています。ストレート スルー チューブ内の時間情報のモデリングは文献で広く採用されていますが、時間的な注意を払わなくても、単純なフレームの配置がすでに十分な本質を提供していることがわかります。この目的のために、このホワイト ペーパーでは、信じられないほど高いパフォーマンスを達成しながら、時間モデリングの労力を最小限に抑える新しい ILA (Implicit Learnable Alignment) メソッドを提案しました。具体的には、フレームペアについて、相互作用点が各フレームで予測され、相互情報量の多い領域として機能します。インタラクティブ ポイントの周囲の機能を強化することで、2 つのフレームが暗黙的に整列されます。次に、整列された機能は単一のトークンにプールされ、後続の空間的自己注意で活用されます。私たちの方法は、ビデオで費用のかかる、または不十分な一時的な自己注意を排除することができます。ベンチマークに関する広範な実験により、モジュールの優位性と汎用性が実証されています。特に、提案された ILA は、Swin-L および ViViT-H と比較してはるかに少ない FLOP で、Kinetics-400 で 88.7% のトップ 1 精度を達成します。コードは https://github.com/Francis-Rings/ILA で公開されています。
Contrastive language-image pretraining (CLIP) has demonstrated remarkable success in various image tasks. However, how to extend CLIP with effective temporal modeling is still an open and crucial problem. Existing factorized or joint spatial-temporal modeling trades off between the efficiency and performance. While modeling temporal information within straight through tube is widely adopted in literature, we find that simple frame alignment already provides enough essence without temporal attention. To this end, in this paper, we proposed a novel Implicit Learnable Alignment (ILA) method, which minimizes the temporal modeling effort while achieving incredibly high performance. Specifically, for a frame pair, an interactive point is predicted in each frame, serving as a mutual information rich region. By enhancing the features around the interactive point, two frames are implicitly aligned. The aligned features are then pooled into a single token, which is leveraged in the subsequent spatial self-attention. Our method allows eliminating the costly or insufficient temporal self-attention in video. Extensive experiments on benchmarks demonstrate the superiority and generality of our module. Particularly, the proposed ILA achieves a top-1 accuracy of 88.7% on Kinetics-400 with much fewer FLOPs compared with Swin-L and ViViT-H. Code is released at https://github.com/Francis-Rings/ILA .
updated: Tue Aug 15 2023 08:04:00 GMT+0000 (UTC)
published: Thu Apr 20 2023 17:11:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト