Multi-Stream Single Shot Spatial-Temporal Action Detection
空間時間アクション検出タスク用の3D畳み込みニューラルネットワーク(CNN)ベースのシングルショット検出器を提示します。モデルには以下が含まれます。(1)現在のフレームの空間的および時間的情報をキャプチャするために、単一のRGBおよびオプティカルフロー画像入力を個別に使用する、2つの短期外観およびモーションストリーム(2)2つの長期3D ConvNetベースのストリーム。連続したRGBおよびオプティカルフロー画像のシーケンスに取り組み、過去のフレームからコンテキストをキャプチャします。このモデルは、ビデオのアクション検出で強力なパフォーマンスを実現し、現在の2ストリームアクション検出方法に簡単に統合できます。困難なUCF101-24アクションデータセットで71.30%のフレームmAPを報告し、1ステージメソッドの最先端の結果を達成しました。私たちの知る限り、私たちの仕事は、アクション検出タスクで3D CNNとSSDを組み合わせた最初のシステムです。
We present a 3D Convolutional Neural Networks (CNNs) based single shot detector for spatial-temporal action detection tasks. Our model includes: (1) two short-term appearance and motion streams, with single RGB and optical flow image input separately, in order to capture the spatial and temporal information for the current frame; (2) two long-term 3D ConvNet based stream, working on sequences of continuous RGB and optical flow images to capture the context from past frames. Our model achieves strong performance for action detection in video and can be easily integrated into any current two-stream action detection methods. We report a frame-mAP of 71.30% on the challenging UCF101-24 actions dataset, achieving the state-of-the-art result of the one-stage methods. To the best of our knowledge, our work is the first system that combined 3D CNN and SSD in action detection tasks.
updated: Thu Aug 22 2019 03:13:22 GMT+0000 (UTC)
published: Thu Aug 22 2019 03:13:22 GMT+0000 (UTC)
