Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting
データ拡張と対照損失関数に依存するインスタンスレベルの対照学習手法は、視覚表現学習の分野で大きな成功を収めています。ただし、操作は多くの拡張インスタンスで実行されるため、ビデオの豊富な動的構造を活用するのには適していません。この論文では、サンプルのセットを操作して、RGBとオプティカルフローの両方のビューから一貫したプロトタイプの割り当てを予測する新しい方法である「ビデオクロスストリームプロトタイプコントラスト」を提案します。具体的には、最適化プロセスを交互に行います。ストリームの1つを最適化する間、すべてのビューは1セットのストリームプロトタイプベクトルにマップされます。各割り当ては、予測に一致するビューを除くすべてのビューで予測され、表現を割り当てられたプロトタイプに近づけます。その結果、推論中にオプティカルフローの計算を明示的に必要とせずに、モーション情報が組み込まれたより効率的なビデオ埋め込みが学習されます。最も近いビデオ検索とアクション認識で最先端の結果が得られ、S3Dバックボーンを使用したUCF101で+ 3.2%(90.5%Top-1 acc)、UCF101とR(2 + 1)Dバックボーンを使用したHMDB51で+ 15.1%。
Instance-level contrastive learning techniques, which rely on data augmentation and a contrastive loss function, have found great success in the domain of visual representation learning. They are not suitable for exploiting the rich dynamical structure of video however, as operations are done on many augmented instances. In this paper we propose "Video Cross-Stream Prototypical Contrasting", a novel method which predicts consistent prototype assignments from both RGB and optical flow views, operating on sets of samples. Specifically, we alternate the optimization process; while optimizing one of the streams, all views are mapped to one set of stream prototype vectors. Each of the assignments is predicted with all views except the one matching the prediction, pushing representations closer to their assigned prototypes. As a result, more efficient video embeddings with ingrained motion information are learned, without the explicit need for optical flow computation during inference. We obtain state-of-the-art results on nearest-neighbour video retrieval and action recognition, outperforming previous best by +3.2% on UCF101 using the S3D backbone (90.5% Top-1 acc), and by +7.2% on UCF101 and +15.1% on HMDB51 using the R(2+1)D backbone.
updated: Wed Oct 20 2021 14:51:14 GMT+0000 (UTC)
published: Fri Jun 18 2021 13:57:51 GMT+0000 (UTC)
