Action Recognition in Untrimmed Videos with Composite Self-Attention Two-Stream Framework
  ディープラーニングアルゴリズムの急速な発展により、ビデオのアクション認識は多くの重要な研究結果を達成しています。アクション認識の1つの問題であるゼロショットアクション認識(ZSAR)が最近注目を集めており、肯定的な例なしに新しいカテゴリを分類しています。アクション認識の別の難点は、トリミングされていないデータがモデルのパフォーマンスに深刻な影響を与える可能性があることです。事前トレーニングモデルを備えた複合2ストリームフレームワークを提案します。提案されているフレームワークには、分類子ブランチと複合機能ブランチが含まれています。グラフネットワークモデルは2つのブランチのそれぞれに採用されており、フレームワークの特徴抽出と推論能力を効果的に向上させます。複合機能ブランチでは、3チャンネルの自己注意モデルが構築され、ビデオの各フレームに重みが付けられ、キーフレームにさらに注意が向けられます。各自己注意モデルチャネルは、ビデオの特定の側面に焦点を合わせるための注意の重みのセットを出力し、注意の重みのセットは1次元ベクトルに対応します。 3チャネルの自己注意モデルは、複数の側面からキーフレームを評価でき、注意重みベクトルの出力セットは注意マトリックスを形成し、アクションの強い相関関係を持つキーフレームの注意を効果的に強化します。このモデルは、ゼロショット条件下でアクション認識を実装でき、トリミングされていないビデオデータに対して優れた認識パフォーマンスを発揮します。関連するデータセットの実験結果は、モデルの妥当性を確認します。
With the rapid development of deep learning algorithms, action recognition in video has achieved many important research results. One issue in action recognition, Zero-Shot Action Recognition (ZSAR), has recently attracted considerable attention, which classify new categories without any positive examples. Another difficulty in action recognition is that untrimmed data may seriously affect model performance. We propose a composite two-stream framework with a pre-trained model. Our proposed framework includes a classifier branch and a composite feature branch. The graph network model is adopted in each of the two branches, which effectively improves the feature extraction and reasoning ability of the framework. In the composite feature branch, a 3-channel self-attention models are constructed to weight each frame in the video and give more attention to the key frames. Each self-attention models channel outputs a set of attention weights to focus on a particular aspect of the video, and a set of attention weights corresponds to a one-dimensional vector. The 3-channel self-attention models can evaluate key frames from multiple aspects, and the output sets of attention weight vectors form an attention matrix, which effectively enhances the attention of key frames with strong correlation of action. This model can implement action recognition under zero-shot conditions, and has good recognition performance for untrimmed video data. Experimental results on relevant data sets confirm the validity of our model.
updated: Mon Sep 02 2019 05:36:11 GMT+0000 (UTC)
published: Sun Aug 04 2019 02:44:37 GMT+0000 (UTC)
