arXiv reaDer
MVFNet:効率的なビデオ認識のためのマルチビューフュージョンネットワーク
MVFNet: Multi-View Fusion Network for Efficient Video Recognition
従来、時空間モデリングネットワークとその複雑さは、ビデオアクション認識における2つの最も集中した研究トピックです。既存の最先端の方法は、複雑さに関係なく優れた精度を達成していますが、効率的な時空間モデリングソリューションはパフォーマンスがわずかに劣っています。この論文では、効率と有効性の両方を同時に獲得することを試みます。まず、従来のH x W x Tビデオフレームを時空間信号(高さ-幅空間平面からの表示)として扱うことに加えて、他の2つの高さ-時間および幅-時間平面からのビデオもモデル化することを提案します。ビデオのダイナミクスを徹底的にキャプチャします。次に、モデルは2D CNNバックボーンに基づいて設計されており、モデルの複雑さは設計によって十分に考慮されています。具体的には、効率のために分離可能な畳み込みを使用してビデオダイナミクスを活用するための新しいマルチビューフュージョン(MVF)モジュールを紹介します。これはプラグアンドプレイモジュールであり、既成の2D CNNに挿入して、MVFNetと呼ばれるシンプルで効果的なモデルを形成できます。さらに、MVFNetは、一般化されたビデオモデリングフレームワークと考えることができ、さまざまな設定でのC2D、SlowOnly、TSMなどの既存のメソッドに特化することができます。その優位性を示すために、人気のあるベンチマーク(つまり、Something-Something V1&V2、Kinetics、UCF-101、およびHMDB-51)で広範な実験が行われます。提案されたMVFNetは、2DCNNの複雑さで最先端のパフォーマンスを実現できます。
Conventionally, spatiotemporal modeling network and its complexity are the two most concentrated research topics in video action recognition. Existing state-of-the-art methods have achieved excellent accuracy regardless of the complexity meanwhile efficient spatiotemporal modeling solutions are slightly inferior in performance. In this paper, we attempt to acquire both efficiency and effectiveness simultaneously. First of all, besides traditionally treating H x W x T video frames as space-time signal (viewing from the Height-Width spatial plane), we propose to also model video from the other two Height-Time and Width-Time planes, to capture the dynamics of video thoroughly. Secondly, our model is designed based on 2D CNN backbones and model complexity is well kept in mind by design. Specifically, we introduce a novel multi-view fusion (MVF) module to exploit video dynamics using separable convolution for efficiency. It is a plug-and-play module and can be inserted into off-the-shelf 2D CNNs to form a simple yet effective model called MVFNet. Moreover, MVFNet can be thought of as a generalized video modeling framework and it can specialize to be existing methods such as C2D, SlowOnly, and TSM under different settings. Extensive experiments are conducted on popular benchmarks (i.e., Something-Something V1 & V2, Kinetics, UCF-101, and HMDB-51) to show its superiority. The proposed MVFNet can achieve state-of-the-art performance with 2D CNN's complexity.
updated: Sun Dec 13 2020 06:34:18 GMT+0000 (UTC)
published: Sun Dec 13 2020 06:34:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト