arXiv reaDer
人間の行動認識のための時空間高速3Dコンボリューション
Spatio-Temporal FAST 3D Convolutions for Human Action Recognition
  ビデオ入力の効果的な処理は、人間の行動などの時間的に変化するイベントを認識するために不可欠です。水平方向または垂直方向のアクションのしばしば特徴的な時間的特性に動機付けられて、ビデオ入力を備えたCNNアーキテクチャ用の新しい畳み込みブロックを紹介します。提案された分割された隣接の空間的および時間的(FAST)3Dコンボリューションは、通常の3Dコンボリューションの自然な分解です。各畳み込みブロックは、3つの連続的な畳み込み演算で構成されます。2D空間畳み込みに続いて、水平方向と垂直方向にそれぞれ時空間畳み込みが続きます。さらに、水平および垂直の動きを並行して処理するFASTバリアントを導入します。 ResNetアーキテクチャを備えたベンチマークアクション認識データセットUCF-101およびHMDB-51の実験は、従来の3D畳み込みよりもFAST 3D畳み込みブロックの一貫したパフォーマンスの向上を示しています。検証の損失が少ないことは、特により深いネットワークの一般化が優れていることを示しています。また、2ストリームネットワークまたは3D畳み込みブロックのいずれかに基づいて、同様のメモリ要件を持つCNNアーキテクチャのパフォーマンスを評価します。 FAST 3Dコンボリューションを使用したDenseNet-121は、最高のパフォーマンスを発揮することが示されており、分離された時空間コンボリューションのメリットをさらに証明しています。
Effective processing of video input is essential for the recognition of temporally varying events such as human actions. Motivated by the often distinctive temporal characteristics of actions in either horizontal or vertical direction, we introduce a novel convolution block for CNN architectures with video input. Our proposed Fractioned Adjacent Spatial and Temporal (FAST) 3D convolutions are a natural decomposition of a regular 3D convolution. Each convolution block consist of three sequential convolution operations: a 2D spatial convolution followed by spatio-temporal convolutions in the horizontal and vertical direction, respectively. Additionally, we introduce a FAST variant that treats horizontal and vertical motion in parallel. Experiments on benchmark action recognition datasets UCF-101 and HMDB-51 with ResNet architectures demonstrate consistent increased performance of FAST 3D convolution blocks over traditional 3D convolutions. The lower validation loss indicates better generalization, especially for deeper networks. We also evaluate the performance of CNN architectures with similar memory requirements, based either on Two-stream networks or with 3D convolution blocks. DenseNet-121 with FAST 3D convolutions was shown to perform best, giving further evidence of the merits of the decoupled spatio-temporal convolutions.
updated: Tue Oct 22 2019 13:30:21 GMT+0000 (UTC)
published: Mon Sep 30 2019 06:34:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト