arXiv reaDer
予測コーディングネットワークがアクション認識に対応
Predictive Coding Networks Meet Action Recognition
  アクション認識は、一連の定義済みアクションでビデオにラベルを付けるコンピュータービジョンの重要な問題です。ビデオフレームに沿ってセマンティックコンテンツとモーションの両方をキャプチャすることが、このタスクで高精度のパフォーマンスを達成するための鍵となります。最新のメソッドのほとんどは、モーションキューとしてセマンティクスと事前計算されたオプティカルフローフィールドを抽出するためにRGBフレームに依存しています。次に、両方がディープニューラルネットワークを使用して結合されます。しかし、そのようなモデルは、オプティカルフローから抽出されたモーション情報を活用できないが、オプティカルフローを使用すると、ビデオ内の人物やオブジェクトをよりよく認識できると主張されています。これは、より有益な方法で動きを抽出できるさまざまなキューまたはモデルを探索する必要性を促します。この問題に取り組むために、予測コーディングネットワーク(いわゆるPredNet)を探索することを提案します。これは、予測コーディングエラーをレイヤーとタイムステップに伝播するリカレントニューラルネットワークです。 PredNetは、アクション認識のために事前に訓練されたネットワークから抽出された表現を経時的に推定することにより、ビデオでモーションをよりよくキャプチャできるかどうかを分析します。このように、モデルはビデオフレームのみに依存し、前処理されたオプティカルフローを入力として必要としません。 UCF101およびHMDB51データセットに対する提案モデルの有効性を報告します。
Action recognition is a key problem in computer vision that labels videos with a set of predefined actions. Capturing both, semantic content and motion, along the video frames is key to achieve high accuracy performance on this task. Most of the state-of-the-art methods rely on RGB frames for extracting the semantics and pre-computed optical flow fields as a motion cue. Then, both are combined using deep neural networks. Yet, it has been argued that such models are not able to leverage the motion information extracted from the optical flow, but instead the optical flow allows for better recognition of people and objects in the video. This urges the need to explore different cues or models that can extract motion in a more informative fashion. To tackle this issue, we propose to explore the predictive coding network, so called PredNet, a recurrent neural network that propagates predictive coding errors across layers and time steps. We analyze whether PredNet can better capture motions in videos by estimating over time the representations extracted from pre-trained networks for action recognition. In this way, the model only relies on the video frames, and does not need pre-processed optical flows as input. We report the effectiveness of our proposed model on UCF101 and HMDB51 datasets.
updated: Tue Oct 22 2019 15:53:03 GMT+0000 (UTC)
published: Tue Oct 22 2019 15:53:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト