Temporal Action Localization Using Gated Recurrent Units
各アクションの開始と終了を予測することを目的とした時間的アクションローカリゼーション(TAL)タスクと、そのクラスラベルには、現実の世界で多くのアプリケーションがあります。しかし、その複雑さのために、研究者は行動認識タスクと比較して素晴らしい結果に到達していません。複雑さは、ビデオ内のさまざまなアクションの正確な開始時間と終了時間を予測することに関連しています。この論文では、ゲート付き回帰ユニット(GRU)に基づく新しいネットワークと、TALタスクの2つの新しい後処理のアイデアを提案します。具体的には、GRUの出力層の新しい設計を提案し、いわゆるGRU分割モデルを作成します。さらに、線形補間を使用して、正確な開始時刻と終了時刻を持つアクション提案を生成します。最後に、生成された提案を適切にランク付けするために、Learn to Rank(LTR)アプローチを使用します。 Thumos14データセットで提案された方法のパフォーマンスを評価しました。結果は、最先端の方法と比較して、提案された方法の性能の優位性を示しています。特に、Intersection over Union(IoU)0.7での平均平均精度(mAP)メトリックでは、27.52%が得られます。これは、最先端の方法よりも5.12%優れています。
Temporal Action Localization (TAL) task in which the aim is to predict the start and end of each action and its class label has many applications in the real world. But due to its complexity, researchers have not reached great results compared to the action recognition task. The complexity is related to predicting precise start and end times for different actions in any video. In this paper, we propose a new network based on Gated Recurrent Unit (GRU) and two novel post-processing ideas for TAL task. Specifically, we propose a new design for the output layer of the GRU resulting in the so-called GRU-Splitted model. Moreover, linear interpolation is used to generate the action proposals with precise start and end times. Finally, to rank the generated proposals appropriately, we use a Learn to Rank (LTR) approach. We evaluated the performance of the proposed method on Thumos14 dataset. Results show the superiority of the performance of the proposed method compared to state-of-the-art. Especially in the mean Average Precision (mAP) metric at Intersection over Union (IoU) 0.7, we get 27.52% which is 5.12% better than that of state-of-the-art methods.
updated: Sat Aug 07 2021 06:25:29 GMT+0000 (UTC)
published: Sat Aug 07 2021 06:25:29 GMT+0000 (UTC)
