arXiv reaDer
効率的なビデオ分類のための多様な時間的集約と深さ方向の時空間因数分解
Diverse Temporal Aggregation and Depthwise Spatiotemporal Factorization for Efficient Video Classification
最近注目を集めているビデオ分類研究は、時間モデリングと3D効率的なアーキテクチャの分野です。ただし、時間モデリング手法は効率的ではないか、3D効率の高いアーキテクチャは時間モデリングにあまり関心がありません。それらの間のギャップを埋めるために、VoV3Dと呼ばれる効率的な時間モデリング3Dアーキテクチャを提案します。これは、時間ワンショット集約(T-OSA)モジュールと深さ方向に因数分解されたコンポーネントD(2 + 1)Dで構成されます。 T-OSAは、時間的特徴を異なる時間的受容野で集約することにより、特徴階層を構築するように考案されています。このT-OSAをスタックすると、ネットワーク自体が、外部モジュールを使用せずに、フレーム全体の短距離および長距離の時間的関係をモデル化できます。カーネル因数分解とチャネル因数分解に触発されて、D(2 + 1)Dという名前の深さ方向の時空間因数分解モジュールも設計します。これは、ネットワークをより軽量で効率的にするために、3Dの深さ方向の畳み込みを2つの空間的および時間的な深さ方向の畳み込みに分解します。提案された時間モデリング法(T-OSA)と効率的な因数分解されたコンポーネント(D(2 + 1)D)を使用して、VoV3D-MとVoV3D-Lの2種類のVoV3Dネットワークを構築します。時間モデリングの効率と有効性のおかげで、VoV3D-Lはモデルパラメーターが6分の1、計算が16分の1になり、Something-SomethingとKinetics-400の両方で最先端の時間モデリング手法を上回ります。さらに、VoV3Dは、最先端の効率的な3Dアーキテクチャよりも優れた時間モデリング機能を示し、X3Dは同等のモデル容量を備えています。 VoV3Dが効率的なビデオ分類のベースラインとして役立つことを願っています。
Video classification researches that have recently attracted attention are the fields of temporal modeling and 3D efficient architecture. However, the temporal modeling methods are not efficient or the 3D efficient architecture is less interested in temporal modeling. For bridging the gap between them, we propose an efficient temporal modeling 3D architecture, called VoV3D, that consists of a temporal one-shot aggregation (T-OSA) module and depthwise factorized component, D(2+1)D. The T-OSA is devised to build a feature hierarchy by aggregating temporal features with different temporal receptive fields. Stacking this T-OSA enables the network itself to model short-range as well as long-range temporal relationships across frames without any external modules. Inspired by kernel factorization and channel factorization, we also design a depthwise spatiotemporal factorization module, named, D(2+1)D that decomposes a 3D depthwise convolution into two spatial and temporal depthwise convolutions for making our network more lightweight and efficient. By using the proposed temporal modeling method (T-OSA), and the efficient factorized component (D(2+1)D), we construct two types of VoV3D networks, VoV3D-M and VoV3D-L. Thanks to its efficiency and effectiveness of temporal modeling, VoV3D-L has 6x fewer model parameters and 16x less computation, surpassing a state-of-the-art temporal modeling method on both Something-Something and Kinetics-400. Furthermore, VoV3D shows better temporal modeling ability than a state-of-the-art efficient 3D architecture, X3D having comparable model capacity. We hope that VoV3D can serve as a baseline for efficient video classification.
updated: Mon Dec 28 2020 06:21:50 GMT+0000 (UTC)
published: Tue Dec 01 2020 07:40:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト