arXiv reaDer
長時間ビデオ理解のための選択的構造化状態空間
Selective Structured State-Spaces for Long-Form Video Understanding
長い形式のビデオにおける複雑な時空間依存関係の効果的なモデリングは、未解決の問題のままです。最近提案された、線形の複雑さを持つ構造化状態空間シーケンス (S4) モデルは、この空間で有望な方向性を示しています。ただし、S4 モデルで行われるようにすべてのイメージトークンを同等に扱うと、その効率と精度に悪影響を与える可能性があることを示しています。この制限に対処するために、軽量のマスクジェネレーターを使用して有益な画像トークンを適応的に選択する新しい選択的 S4 (つまり、S5) モデルを提示し、ビデオの長期的な時空間依存関係のより効率的で正確なモデリングを実現します。トランスフォーマーで使用されていた以前のマスクベースのトークン削減方法とは異なり、S5 モデルは、モメンタム更新された S4 モデルのガイダンスを利用することで、高密度の自己注意計算を回避します。これにより、モデルは情報量の少ないトークンを効率的に破棄し、さまざまな長い形式のビデオ理解タスクにより効果的に適応できます。ただし、ほとんどのトークン削減方法の場合と同様に、有益な画像トークンが誤ってドロップされる可能性があります。モデルのロバスト性と時間的範囲を改善するために、モデルが短い入力ビデオを使用してより長い時間的コンテキストを予測できるようにする、新しいロングショート マスク対比学習 (LSMCL) アプローチを提案します。 3 つの挑戦的な長尺ビデオ理解データセット (LVU、COIN、Breakfast) を使用して広範な比較結果を提示し、メモリ フットプリントを削減しながら、以前の最先端の S4 モデルを最大 9.6% の精度で常に上回ることを実証します。 23%減。
Effective modeling of complex spatiotemporal dependencies in long-form videos remains an open problem. The recently proposed Structured State-Space Sequence (S4) model with its linear complexity offers a promising direction in this space. However, we demonstrate that treating all image-tokens equally as done by S4 model can adversely affect its efficiency and accuracy. To address this limitation, we present a novel Selective S4 (i.e., S5) model that employs a lightweight mask generator to adaptively select informative image tokens resulting in more efficient and accurate modeling of long-term spatiotemporal dependencies in videos. Unlike previous mask-based token reduction methods used in transformers, our S5 model avoids the dense self-attention calculation by making use of the guidance of the momentum-updated S4 model. This enables our model to efficiently discard less informative tokens and adapt to various long-form video understanding tasks more effectively. However, as is the case for most token reduction methods, the informative image tokens could be dropped incorrectly. To improve the robustness and the temporal horizon of our model, we propose a novel long-short masked contrastive learning (LSMCL) approach that enables our model to predict longer temporal context using shorter input videos. We present extensive comparative results using three challenging long-form video understanding datasets (LVU, COIN and Breakfast), demonstrating that our approach consistently outperforms the previous state-of-the-art S4 model by up to 9.6% accuracy while reducing its memory footprint by 23%.
updated: Sat Mar 25 2023 17:47:12 GMT+0000 (UTC)
published: Sat Mar 25 2023 17:47:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト