arXiv reaDer
自己監視型ビデオ表現学習における時間的粒度の調査
Exploring Temporal Granularity in Self-Supervised Video Representation Learning
この作品は、ビデオ表現の学習における時間的粒度を探求するためのTeGという名前の自己監視学習フレームワークを提示します。 TeGでは、ビデオから長いクリップと、長いクリップの内側にある短いクリップをサンプリングします。次に、それらの密な時間的埋め込みを抽出します。トレーニング目標は、2つの部分で構成されます。短いクリップと長いクリップの対応する時間埋め込み間の類似性を最大化するためのきめ細かい時間学習目標と、2つのクリップのグローバル埋め込みをまとめるための永続的な時間学習目標です。私たちの研究は、3つの主要な発見とともに時間的粒度の影響を明らかにしています。 1)ビデオタスクが異なれば、時間的な粒度の異なる機能が必要になる場合があります。 2)興味深いことに、一時的な認識が必要であると広く考えられているいくつかのタスクは、実際には一時的に永続的な機能によって適切に対処できます。 3)TeGの柔軟性により、8つのビデオベンチマークで最先端の結果が得られ、ほとんどの場合、教師あり事前トレーニングを上回ります。
This work presents a self-supervised learning framework named TeG to explore Temporal Granularity in learning video representations. In TeG, we sample a long clip from a video and a short clip that lies inside the long clip. We then extract their dense temporal embeddings. The training objective consists of two parts: a fine-grained temporal learning objective to maximize the similarity between corresponding temporal embeddings in the short clip and the long clip, and a persistent temporal learning objective to pull together global embeddings of the two clips. Our study reveals the impact of temporal granularity with three major findings. 1) Different video tasks may require features of different temporal granularities. 2) Intriguingly, some tasks that are widely considered to require temporal awareness can actually be well addressed by temporally persistent features. 3) The flexibility of TeG gives rise to state-of-the-art results on 8 video benchmarks, outperforming supervised pre-training in most cases.
updated: Wed Dec 08 2021 18:58:42 GMT+0000 (UTC)
published: Wed Dec 08 2021 18:58:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト