arXiv reaDer
SMAUG: 効率的なビデオ言語の事前トレーニングのためのスパース マスク オートエンコーダー
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training
強力なマルチモーダル表現を学習するには、ビデオ言語の事前トレーニングが不可欠です。ただし、通常は大量の計算が必要です。この論文では、ビデオ言語モデルの効率的な事前トレーニング フレームワークである SMAUG を開発します。 SMAUG の基本コンポーネントは、マスクされたオートエンコーダーです。テキスト入力のみをマスクする以前の作業とは異なり、マスキング戦略は視覚的モダリティとテキスト モダリティの両方を考慮し、より優れたクロスモーダル アラインメントを提供し、より多くの事前トレーニング コストを節約します。その上で、時空間トークンのスパース化モジュールを導入します。これは、コンテキスト情報を活用して、事前トレーニング用の「重要な」空間領域と時間フレームのみをさらに選択します。これらすべての設計を組み合わせることで、私たちの方法は、テキストからビデオへの検索とビデオの質問応答タスクで競争力のあるパフォーマンスを享受し、事前トレーニングのコストを 1.9 倍以上削減することができます。たとえば、当社の SMAUG は、6 つの一般的なベンチマークでこれら 2 つのビデオ言語タスクで競争力のあるパフォーマンスを達成するための事前トレーニングに、約 50 NVIDIA A6000 GPU 時間しか必要としません。
Video-language pre-training is crucial for learning powerful multi-modal representation. However, it typically requires a massive amount of computation. In this paper, we develop SMAUG, an efficient pre-training framework for video-language models. The foundation component in SMAUG is masked autoencoders. Different from prior works which only mask textual inputs, our masking strategy considers both visual and textual modalities, providing a better cross-modal alignment and saving more pre-training costs. On top of that, we introduce a space-time token sparsification module, which leverages context information to further select only "important" spatial regions and temporal frames for pre-training. Coupling all these designs allows our method to enjoy both competitive performances on text-to-video retrieval and video question answering tasks, and much less pre-training costs by 1.9X or more. For example, our SMAUG only needs about 50 NVIDIA A6000 GPU hours for pre-training to attain competitive performances on these two video-language tasks across six popular benchmarks.
updated: Mon Nov 21 2022 13:34:34 GMT+0000 (UTC)
published: Mon Nov 21 2022 13:34:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト