arXiv reaDer
双方向特徴予測による教師なしビデオ表現学習
Unsupervised Video Representation Learning by Bidirectional Feature Prediction
この論文は、特徴予測を介した自己教師ありビデオ表現学習のための新しい方法を紹介します。将来の特徴予測に焦点を当てた以前の方法とは対照的に、観測されていない過去のフレームから生じる監視信号は、将来のフレームから発生するものを補完するものであると主張します。私たちの方法の背後にある理論的根拠は、与えられた現在の観測の未来と過去を区別することによって、ネットワークがビデオの時間的構造を探索することを奨励することです。対照的な学習フレームワークでモデルをトレーニングします。このフレームワークでは、未来と過去のジョイントエンコーディングにより、スワッピングを介して一時的なハードネガの包括的なセットが提供されます。両方の信号を利用することで、行動認識の下流タスクの学習された表現が豊かになることを経験的に示します。これは、将来と過去の独立した予測よりも優れています。
This paper introduces a novel method for self-supervised video representation learning via feature prediction. In contrast to the previous methods that focus on future feature prediction, we argue that a supervisory signal arising from unobserved past frames is complementary to one that originates from the future frames. The rationale behind our method is to encourage the network to explore the temporal structure of videos by distinguishing between future and past given present observations. We train our model in a contrastive learning framework, where joint encoding of future and past provides us with a comprehensive set of temporal hard negatives via swapping. We empirically show that utilizing both signals enriches the learned representations for the downstream task of action recognition. It outperforms independent prediction of future and past.
updated: Wed Nov 11 2020 19:42:31 GMT+0000 (UTC)
published: Wed Nov 11 2020 19:42:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト