Am I Done? Predicting Action Progress in Videos
 このペーパーでは、ビデオのアクションの進行を予測する問題を扱います。これは、幅広い相互作用アプリケーションにとって価値があるため、これは非常に重要なタスクであると主張します。この目的のために、ビデオでアクションが発生するタイミング、フレーム内のアクション、実行中の進行状況を予測できるProgressNetという新しいアプローチを導入します。アクションの進捗状況の一般的な定義を提供するために、用語と概念を借用して、どのアクションが進捗状況の推定の対象となるかを理解するために、言語学の文献に取り組みます。その結果、アクションとそのフェーズの分類を定義します。畳み込みニューラルネットワークとリカレントニューラルネットワークの相互作用から得られた最近の成功に動機付けられたモデルは、Faster R-CNNフレームワークの組み合わせに基づいており、フレームごとの予測を行い、LSTMネットワークを使用して、時間の経過によるアクションの進行を推定します。手元のタスクに2つの評価プロトコルを導入した後、UCF-101およびJ-HMDBデータセットのアクションの進行を効果的に予測するモデルの機能を実証します。
In this paper we deal with the problem of predicting action progress in videos. We argue that this is an extremely important task since it can be valuable for a wide range of interaction applications. To this end we introduce a novel approach, named ProgressNet, capable of predicting when an action takes place in a video, where it is located within the frames, and how far it has progressed during its execution. To provide a general definition of action progress, we ground our work in the linguistics literature, borrowing terms and concepts to understand which actions can be the subject of progress estimation. As a result, we define a categorization of actions and their phases. Motivated by the recent success obtained from the interaction of Convolutional and Recurrent Neural Networks, our model is based on a combination of the Faster R-CNN framework, to make frame-wise predictions, and LSTM networks, to estimate action progress through time. After introducing two evaluation protocols for the task at hand, we demonstrate the capability of our model to effectively predict action progress on the UCF-101 and J-HMDB datasets.
updated: Tue Mar 10 2020 01:43:40 GMT+0000 (UTC)
published: Thu May 04 2017 10:28:21 GMT+0000 (UTC)
