arXiv reaDer
Broaden Your Views for Self-Supervised Video Learning
最も成功している自己教師あり学習方法は、データからの2つの独立したビューの表現を調整するようにトレーニングされています。ビデオの最先端の方法は、画像技術に触発されており、これらの2つのビューは、結果として得られる作物をトリミングおよび拡張することによって同様に抽出されます。ただし、これらの方法では、ビデオドメインの重要な要素である時間が欠落しています。ビデオの自己教師あり学習フレームワークであるBraVeを紹介します。 BraVeでは、一方のビューはビデオの狭い時間ウィンドウにアクセスでき、もう一方のビューはビデオコンテンツに広くアクセスできます。私たちのモデルは、狭い視野からビデオの一般的なコンテンツまで一般化することを学びます。さらに、BraVeはさまざまなバックボーンでビューを処理し、オプティカルフロー、ランダムに畳み込まれたRGBフレーム、オーディオ、またはそれらの組み合わせなど、幅広いビューへの代替の拡張またはモダリティの使用を可能にします。 BraVeが、UCF101、HMDB51、Kinetics、ESC-50、AudioSetなどの標準的なビデオおよびオーディオ分類ベンチマークでの自己教師あり表現学習で最先端の結果を達成することを示します。
Most successful self-supervised learning methods are trained to align the representations of two independent views from the data. State-of-the-art methods in video are inspired by image techniques, where these two views are similarly extracted by cropping and augmenting the resulting crop. However, these methods miss a crucial element in the video domain: time. We introduce BraVe, a self-supervised learning framework for video. In BraVe, one of the views has access to a narrow temporal window of the video while the other view has a broad access to the video content. Our models learn to generalise from the narrow view to the general content of the video. Furthermore, BraVe processes the views with different backbones, enabling the use of alternative augmentations or modalities into the broad view such as optical flow, randomly convolved RGB frames, audio or their combinations. We demonstrate that BraVe achieves state-of-the-art results in self-supervised representation learning on standard video and audio classification benchmarks including UCF101, HMDB51, Kinetics, ESC-50 and AudioSet.
updated: Tue Oct 19 2021 17:08:38 GMT+0000 (UTC)
published: Tue Mar 30 2021 17:58:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト