自己教師あり学習は、事前トレーニングビデオ表現に正常に適用されています。これは、事前トレーニングドメインからダウンストリームタスクへの効率的な適応を目的としています。既存のアプローチは、インスタンスレベルの識別を学習するために対照的な損失を利用するだけです。ただし、カテゴリ情報が不足していると、この種の方法の一般化能力を制約するハードポジティブな問題が発生します。メタ学習のマルチタスクプロセスがこの問題の解決策を提供できることがわかりました。本論文では、既存の自己教師ありアプローチの学習能力を強化するために、対照学習とメタ学習を組み合わせたメタ対照ネットワーク(MCN)を提案します。私たちの方法には、モデルにとらわれないメタ学習(MAML)に基づく2つのトレーニング段階が含まれ、それぞれが対照的なブランチとメタブランチで構成されています。広範な評価は、私たちの方法の有効性を示しています。 2つのダウンストリームタスク、つまりビデオアクション認識とビデオ検索の場合、MCNはUCF101およびHMDB51データセットでの最先端のアプローチよりも優れています。具体的には、R(2 + 1)Dバックボーンを使用すると、MCNはビデオアクション認識で84.8%と54.5%、ビデオ検索で52.5%と23.7%のトップ1精度を達成します。
Self-supervised learning has been successfully applied to pre-train video representations, which aims at efficient adaptation from pre-training domain to downstream tasks. Existing approaches merely leverage contrastive loss to learn instance-level discrimination. However, lack of category information will lead to hard-positive problem that constrains the generalization ability of this kind of methods. We find that the multi-task process of meta learning can provide a solution to this problem. In this paper, we propose a Meta-Contrastive Network (MCN), which combines the contrastive learning and meta learning, to enhance the learning ability of existing self-supervised approaches. Our method contains two training stages based on model-agnostic meta learning (MAML), each of which consists of a contrastive branch and a meta branch. Extensive evaluations demonstrate the effectiveness of our method. For two downstream tasks, i.e., video action recognition and video retrieval, MCN outperforms state-of-the-art approaches on UCF101 and HMDB51 datasets. To be more specific, with R(2+1)D backbone, MCN achieves Top-1 accuracies of 84.8% and 54.5% for video action recognition, as well as 52.5% and 23.7% for video retrieval.