arXiv reaDer
モーション認識トークン選択による効率的なビデオ表現学習
Efficient Video Representation Learning via Motion-Aware Token Selection
最近登場したマスク ビデオ モデリング手法は、ビデオの自己教師あり学習において以前の手法を大幅に上回るパフォーマンスを示し、その可能性を実証しました。ただし、ランダムなマスキング戦略により有益でないトークン/フレームを予測する際に、過剰な量の計算とメモリが必要となり、トレーニングに過剰な計算能力が必要になります。 (例: 128 個の NVIDIA A100 GPU を備えた 16 ノード以上)。この問題を解決するために、ビデオ内のパッチ間の不均等な情報密度を利用し、新しいトークン選択方法である MATS: モーション認識トークン選択を提案します。トレーニングと微調整。さらに、モデルが最小限の冗長性で有益な因果フレームに焦点を当てることを可能にする適応フレーム選択戦略を提示します。私たちの手法は、計算とメモリの要件を大幅に削減し、8 つの GPU を備えた 1 台のマシンで事前トレーニングと微調整を可能にし、複数のベンチマークやベンチマークで計算とメモリを大量に使用する最先端の手法と同等のパフォーマンスを実現します。未管理の Ego4D データセット。私たちは、MATS の効率性が、ビデオの自己教師あり学習に関するさらなる研究を実施する際の障壁を減らすことに貢献することを期待しています。
Recently emerged Masked Video Modeling techniques demonstrated their potential by significantly outperforming previous methods in self-supervised learning for video. However, they require an excessive amount of computations and memory while predicting uninformative tokens/frames due to random masking strategies, requiring excessive computing power for training. (e.g., over 16 nodes with 128 NVIDIA A100 GPUs). To resolve this issue, we exploit the unequal information density among the patches in videos and propose a new token selection method, MATS: Motion-Aware Token Selection, that finds tokens containing rich motion features and drops uninformative ones during both self-supervised pre-training and fine-tuning. We further present an adaptive frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. Our method significantly reduces computation and memory requirements, enabling the pre-training and fine-tuning on a single machine with 8 GPUs while achieving comparable performance to computation- and memory-heavy state-of-the-art methods on multiple benchmarks and on the uncurated Ego4D dataset. We are hopeful that the efficiency of our MATS will contribute to reducing the barrier to conducting further research on self-supervised learning for videos.
updated: Fri Jun 16 2023 06:57:01 GMT+0000 (UTC)
published: Sat Nov 19 2022 09:57:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト