arXiv reaDer
ビデオのアクション認識のための2ストリーム畳み込みネットワーク
Two-Stream Convolutional Networks for Action Recognition in Videos
ビデオでのアクション認識のために、識別訓練されたディープコンボリューショナルネットワーク(ConvNets)のアーキテクチャを調査します。課題は、静止フレームおよびフレーム間の動きから外観に関する補足情報を取得することです。また、データ駆動型学習フレームワーク内で最高のパフォーマンスの手作り機能を一般化することも目指しています。私たちの貢献は3つあります。最初に、空間ネットワークと時間ネットワークを組み込んだ2ストリームのConvNetアーキテクチャを提案します。次に、マルチフレームの高密度オプティカルフローでトレーニングされたConvNetは、トレーニングデータが限られているにもかかわらず、非常に優れたパフォーマンスを達成できることを実証します。最後に、2つの異なるアクション分類データセットに適用されるマルチタスク学習を使用して、トレーニングデータの量を増やし、両方のパフォーマンスを改善できることを示します。当社のアーキテクチャは、UCF-101およびHMDB-51の標準ビデオアクションベンチマークでトレーニングおよび評価されており、最新技術と競合しています。また、ビデオ分類にディープネットを使用する以前の試みを大幅に超えています。
We investigate architectures of discriminatively trained deep Convolutional Networks (ConvNets) for action recognition in video. The challenge is to capture the complementary information on appearance from still frames and motion between frames. We also aim to generalise the best performing hand-crafted features within a data-driven learning framework. Our contribution is three-fold. First, we propose a two-stream ConvNet architecture which incorporates spatial and temporal networks. Second, we demonstrate that a ConvNet trained on multi-frame dense optical flow is able to achieve very good performance in spite of limited training data. Finally, we show that multi-task learning, applied to two different action classification datasets, can be used to increase the amount of training data and improve the performance on both. Our architecture is trained and evaluated on the standard video actions benchmarks of UCF-101 and HMDB-51, where it is competitive with the state of the art. It also exceeds by a large margin previous attempts to use deep nets for video classification.
updated: Wed Nov 12 2014 20:48:33 GMT+0000 (UTC)
published: Mon Jun 09 2014 14:44:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト