ビデオ内のアクションを検出することは重要ですが、やりがいのあるタスクです。以前の作品では、通常、(a)スライディングウィンドウパラダイム、または(b)フレームごとのアクションスコアリングおよびグループ化を使用して、可能な時間的位置を列挙します。それらのパフォーマンスは、スライディングウィンドウまたはグループ化戦略の設計に限定されます。この論文では、Deep Point-wise Prediction(DPP)と呼ばれる、時間的アクション提案生成のためのシンプルで効果的な方法を提示します。 DPPは、手作りのスライディングウィンドウやグループ化を使用せずに、アクションの存在可能性と対応する時間的位置を同時に予測します。システム全体は、時間的アクション提案の分類と位置予測の共同損失でエンドツーエンドのトレーニングを受けています。標準的なTHUMOS14データセットでその有効性、一般性、堅牢性を検証するために、広範な実験を実施しています。 DPPは毎秒1000フレーム以上を実行し、これはリアルタイムの要件をほぼ満たします。コードはhttps://github.com/liluxuan1997/DPPで入手できます。
Detecting actions in videos is an important yet challenging task. Previous works usually utilize (a) sliding window paradigms, or (b) per-frame action scoring and grouping to enumerate the possible temporal locations. Their performances are also limited to the designs of sliding windows or grouping strategies. In this paper, we present a simple and effective method for temporal action proposal generation, named Deep Point-wise Prediction (DPP). DPP simultaneously predicts the action existing possibility and the corresponding temporal locations, without the utilization of any handcrafted sliding window or grouping. The whole system is end-to-end trained with joint loss of temporal action proposal classification and location prediction. We conduct extensive experiments to verify its effectiveness, generality and robustness on standard THUMOS14 dataset. DPP runs more than 1000 frames per second, which largely satisfies the real-time requirement. The code is available at https://github.com/liluxuan1997/DPP.