arXiv reaDer
CMAE-V: ビデオ アクション認識のためのコントラスト マスク オートエンコーダー
CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition
Contrastive Masked Autoencoder (CMAE) は、新しい自己教師ありフレームワークとして、視覚画像認識で表現力豊かな特徴表現を学習する可能性を示しています。この作業は、アーキテクチャと損失基準を変更することなく、CMAE がビデオ アクション認識についても自明に一般化することを示しています。元のピクセル シフトを一時的なシフトに直接置き換えることにより、視覚動作認識用の CMAE、略して CMAE-V は、純粋なマスク オートエンコーダーに基づく対応するものよりも強力な特徴表現を生成できます。特に、ハイブリッド アーキテクチャを備えた CMAE-V は、Kinetics-400 および Something-something V2 データセットでそれぞれ 82.2% および 71.6% のトップ 1 精度を達成できます。このレポートが、今後の作業の参考になれば幸いです。
Contrastive Masked Autoencoder (CMAE), as a new self-supervised framework, has shown its potential of learning expressive feature representations in visual image recognition. This work shows that CMAE also trivially generalizes well on video action recognition without modifying the architecture and the loss criterion. By directly replacing the original pixel shift with the temporal shift, our CMAE for visual action recognition, CMAE-V for short, can generate stronger feature representations than its counterpart based on pure masked autoencoders. Notably, CMAE-V, with a hybrid architecture, can achieve 82.2% and 71.6% top-1 accuracy on the Kinetics-400 and Something-something V2 datasets, respectively. We hope this report could provide some informative inspiration for future works.
updated: Sun Jan 15 2023 05:07:41 GMT+0000 (UTC)
published: Sun Jan 15 2023 05:07:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト