arXiv reaDer
VideoMoCo:一時的に敵対的な例を使用した対照的なビデオ表現学習
VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples
MoCoは、教師なし画像表現学習に効果的です。この論文では、教師なしビデオ表現学習のためのVideoMoCoを提案します。入力サンプルとしてビデオシーケンスが与えられた場合、2つの観点からMoCoの時間的特徴表現を改善します。まず、このサンプルからいくつかのフレームを一時的にドロップアウトするジェネレータを導入します。次に、ディスクリミネーターは、フレームの削除に関係なく、同様の特徴表現をエンコードすることを学習します。敵対的学習のトレーニング反復中にさまざまなフレームを適応的にドロップアウトすることにより、この入力サンプルを拡張して、時間的に堅牢なエンコーダーをトレーニングします。次に、対照的な損失を計算するときに、時間的減衰を使用して、メモリキュー内のキーの減衰をモデル化します。キーがエンキューされた後にモメンタムエンコーダが更新されるため、対照学習に現在の入力サンプルを使用すると、これらのキーの表現能力が低下します。この劣化は、キュー内の最近のキーへの入力サンプルに参加するための一時的な減衰によって反映されます。その結果、私たちはMoCoを適応させて、口実タスクを経験的に設計することなくビデオ表現を学習します。エンコーダーの時間的ロバスト性を強化し、キーの時間的減衰をモデル化することにより、VideoMoCoは対照的な学習に基づいてMoCoを時間的に改善します。 UCF101やHMDB51を含むベンチマークデータセットでの実験は、VideoMoCoが最先端のビデオ表現学習方法として機能することを示しています。
MoCo is effective for unsupervised image representation learning. In this paper, we propose VideoMoCo for unsupervised video representation learning. Given a video sequence as an input sample, we improve the temporal feature representations of MoCo from two perspectives. First, we introduce a generator to drop out several frames from this sample temporally. The discriminator is then learned to encode similar feature representations regardless of frame removals. By adaptively dropping out different frames during training iterations of adversarial learning, we augment this input sample to train a temporally robust encoder. Second, we use temporal decay to model key attenuation in the memory queue when computing the contrastive loss. As the momentum encoder updates after keys enqueue, the representation ability of these keys degrades when we use the current input sample for contrastive learning. This degradation is reflected via temporal decay to attend the input sample to recent keys in the queue. As a result, we adapt MoCo to learn video representations without empirically designing pretext tasks. By empowering the temporal robustness of the encoder and modeling the temporal decay of the keys, our VideoMoCo improves MoCo temporally based on contrastive learning. Experiments on benchmark datasets including UCF101 and HMDB51 show that VideoMoCo stands as a state-of-the-art video representation learning method.
updated: Wed Mar 17 2021 02:45:50 GMT+0000 (UTC)
published: Wed Mar 10 2021 07:22:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト