arXiv reaDer
Hierarchical Contrastive Motion Learning for Video Action Recognition
ビデオアクション認識の1つの中心的な問題は、モーションのモデリング方法です。この論文では、生のビデオフレームから効果的なモーション表現を抽出するための新しい自己教師付き学習フレームワークである階層的コントラストモーション学習を紹介します。私たちのアプローチは、ネットワークのさまざまな抽象化レベルに対応するモーション機能の階層を段階的に学習します。この階層設計は、低レベルのモーションキューと高レベルの認識タスクの間のセマンティックギャップを埋め、複数のレベルでの外観とモーション情報の融合を促進します。各レベルでは、対照的な学習を介して明示的なモーションの自己監視が提供され、現在のレベルのモーション機能を実施して、前のレベルの将来のモーション機能を予測します。したがって、より高いレベルのモーション機能は、セマンティックダイナミクスを徐々にキャプチャし、アクション認識のためにより差別的に進化するようにトレーニングされます。モーションラーニングモジュールは軽量で柔軟性があり、さまざまなバックボーンネットワークに組み込むことができます。 4つのベンチマークでの広範な実験は、提案されたアプローチが一貫して優れた結果を達成することを示しています。
One central question for video action recognition is how to model motion. In this paper, we present hierarchical contrastive motion learning, a new self-supervised learning framework to extract effective motion representations from raw video frames. Our approach progressively learns a hierarchy of motion features that correspond to different abstraction levels in a network. This hierarchical design bridges the semantic gap between low-level motion cues and high-level recognition tasks, and promotes the fusion of appearance and motion information at multiple levels. At each level, an explicit motion self-supervision is provided via contrastive learning to enforce the motion features at the current level to predict the future ones at the previous level. Thus, the motion features at higher levels are trained to gradually capture semantic dynamics and evolve more discriminative for action recognition. Our motion learning module is lightweight and flexible to be embedded into various backbone networks. Extensive experiments on four benchmarks show that the proposed approach consistently achieves superior results.
updated: Fri Jul 09 2021 15:47:45 GMT+0000 (UTC)
published: Mon Jul 20 2020 17:59:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト