arXiv reaDer
MAR:効率的な行動認識のためのマスクされたオートエンコーダ
MAR: Masked Autoencoders for Efficient Action Recognition
ビデオ認識の標準的なアプローチは、通常、完全な入力ビデオで動作します。これは、ビデオに広く存在する時空間冗長性のために非効率的です。マスクされたビデオモデリング、つまりVideoMAEの最近の進歩は、限られた視覚的コンテンツのみが与えられた場合に、バニラビジョントランスフォーマー(ViT)が時空間コンテキストを補完する能力を示しています。これに触発されて、パッチの一部を破棄し、ビデオの一部のみを操作することによって冗長な計算を削減するマスクされたアクション認識(MAR)を提案します。 MARには、セル実行マスキングとブリッジング分類子の2つの必須コンポーネントが含まれています。具体的には、ViTが目に見えるパッチを超えた詳細を簡単に認識できるようにするために、セルランニングマスキングが提示され、ビデオの時空間相関が保持されます。これにより、同じ空間位置にあるパッチを順番に観察して、簡単に再構築できます。さらに、部分的に観察された特徴は意味的に明示的な目に見えないパッチを再構築できますが、正確な分類を達成できないことに気づきました。これに対処するために、再構成のためのViTエンコード機能と分類に特化した機能との間のセマンティックギャップを埋めるために、ブリッジング分類器が提案されています。私たちが提案するMARは、ViTの計算コストを53%削減し、広範な実験により、MARは既存のViTモデルを一貫して大幅に上回っています。特に、MARによってトレーニングされたViT-Largeは、Kinetics-400とSomething-Something v2データセットの両方でマージンを納得させることにより、標準のトレーニングスキームによってトレーニングされたViT-Hugeよりも優れていることがわかりましたが、ViT-Largeの計算オーバーヘッドはわずか14.5%です。 ViT-巨大。
Standard approaches for video recognition usually operate on the full input videos, which is inefficient due to the widely present spatio-temporal redundancy in videos. Recent progress in masked video modelling, i.e., VideoMAE, has shown the ability of vanilla Vision Transformers (ViT) to complement spatio-temporal contexts given only limited visual contents. Inspired by this, we propose propose Masked Action Recognition (MAR), which reduces the redundant computation by discarding a proportion of patches and operating only on a part of the videos. MAR contains the following two indispensable components: cell running masking and bridging classifier. Specifically, to enable the ViT to perceive the details beyond the visible patches easily, cell running masking is presented to preserve the spatio-temporal correlations in videos, which ensures the patches at the same spatial location can be observed in turn for easy reconstructions. Additionally, we notice that, although the partially observed features can reconstruct semantically explicit invisible patches, they fail to achieve accurate classification. To address this, a bridging classifier is proposed to bridge the semantic gap between the ViT encoded features for reconstruction and the features specialized for classification. Our proposed MAR reduces the computational cost of ViT by 53% and extensive experiments show that MAR consistently outperforms existing ViT models with a notable margin. Especially, we found a ViT-Large trained by MAR outperforms the ViT-Huge trained by a standard training scheme by convincing margins on both Kinetics-400 and Something-Something v2 datasets, while our computation overhead of ViT-Large is only 14.5% of ViT-Huge.
updated: Sun Jul 24 2022 04:27:36 GMT+0000 (UTC)
published: Sun Jul 24 2022 04:27:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト