arXiv reaDer
時空間クロップ&アテンド:クロスモーダルビデオ表現学習の改善
Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning
自己監視学習から得られる画像表現の品質は、学習の定式化で使用されるデータ拡張のタイプに大きく依存します。最近の論文では、これらの方法を静止画像からビデオに移植し、オーディオ信号とビデオ信号の両方を活用することで大きなメリットが得られることがわかりました。ただし、静止画像にとって非常に重要なトリミングなどの空間拡張がビデオでも機能することはわかりませんでした。この論文では、ビデオの時空間的側面に特有の2つの方法でこれらの定式化を改善します。まず、スペースについては、トリミングなどの空間拡張がビデオでもうまく機能することを示しますが、以前の実装では、処理とメモリコストが高いため、うまく機能するのに十分な規模でこれを行うことができませんでした。この問題に対処するために、まず、フィーチャスペースで直接、このような拡張をはるかに効率的にシミュレートする方法であるフィーチャクロップを紹介します。次に、単純な平均プーリングとは対照的に、トランスフォーマーベースの注意を使用するとパフォーマンスが大幅に向上し、特徴作物の処理に適していることを示します。両方の発見を新しい方法であるSpace-TimeCrop&Attend(STiCA)に組み合わせることで、複数のビデオ表現学習ベンチマークにわたって最先端のパフォーマンスを実現します。特に、Kinetics-400で事前トレーニングを行うと、HMDB-51で67.0%、UCF-101で93.1%という最新の精度を達成します。
The quality of the image representations obtained from self-supervised learning depends strongly on the type of data augmentations used in the learning formulation. Recent papers have ported these methods from still images to videos and found that leveraging both audio and video signals yields strong gains; however, they did not find that spatial augmentations such as cropping, which are very important for still images, work as well for videos. In this paper, we improve these formulations in two ways unique to the spatio-temporal aspect of videos. First, for space, we show that spatial augmentations such as cropping do work well for videos too, but that previous implementations, due to the high processing and memory cost, could not do this at a scale sufficient for it to work well. To address this issue, we first introduce Feature Crop, a method to simulate such augmentations much more efficiently directly in feature space. Second, we show that as opposed to naive average pooling, the use of transformer-based attention improves performance significantly, and is well suited for processing feature crops. Combining both of our discoveries into a new method, Space-Time Crop & Attend (STiCA) we achieve state-of-the-art performance across multiple video-representation learning benchmarks. In particular, we achieve new state-of-the-art accuracies of 67.0% on HMDB-51 and 93.1% on UCF-101 when pre-training on Kinetics-400.
updated: Wed Oct 27 2021 11:56:32 GMT+0000 (UTC)
published: Thu Mar 18 2021 12:32:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト