arXiv reaDer
動きと対照的な知覚による自己監視ビデオ表現学習
Self-Supervised Video Representation Learning with Motion-Contrastive Perception
視覚のみの自己監視学習は、ビデオ表現学習の大幅な改善を達成しました。既存の関連する方法は、対照的な学習を利用するか、特定の口実タスクを設計することによって、モデルがビデオ表現を学習することを奨励します。ただし、一部のモデルは背景に焦点を当てている可能性があり、これはビデオ表現の学習には重要ではありません。この問題を軽減するために、よりモーション固有の情報を取得するために、長距離残差フレームと呼ばれる新しいビューを提案します。これに基づいて、モーション情報知覚(MIP)とコントラストインスタンス知覚(CIP)の2つのブランチで構成されるモーションコントラスト知覚ネットワーク(MCPNet)を提案し、変化する領域に焦点を当てて一般的なビデオ表現を学習します。ビデオ。具体的には、MIPブランチはきめ細かいモーション機能の学習を目的としており、CIPブランチは対照的な学習を実行して各インスタンスの全体的なセマンティクス情報を学習します。 2つのベンチマークデータセットUCF-101とHMDB-51での実験は、私たちの方法が現在の最先端の視覚のみの自己監視アプローチよりも優れていることを示しています。
Visual-only self-supervised learning has achieved significant improvement in video representation learning. Existing related methods encourage models to learn video representations by utilizing contrastive learning or designing specific pretext tasks. However, some models are likely to focus on the background, which is unimportant for learning video representations. To alleviate this problem, we propose a new view called long-range residual frame to obtain more motion-specific information. Based on this, we propose the Motion-Contrastive Perception Network (MCPNet), which consists of two branches, namely, Motion Information Perception (MIP) and Contrastive Instance Perception (CIP), to learn generic video representations by focusing on the changing areas in videos. Specifically, the MIP branch aims to learn fine-grained motion features, and the CIP branch performs contrastive learning to learn overall semantics information for each instance. Experiments on two benchmark datasets UCF-101 and HMDB-51 show that our method outperforms current state-of-the-art visual-only self-supervised approaches.
updated: Sun Apr 10 2022 05:34:46 GMT+0000 (UTC)
published: Sun Apr 10 2022 05:34:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト