トリミングされていない動画でアクションの開始時間と終了時間を正確に特定することは、困難な作業です。重要な理由の1つは、アクションの境界が高度に区別可能ではなく、境界付近の特徴を区別するのが難しいことです。この問題に対処するために、完全なアクションインスタンスを含むビデオを6つの段階、つまりBackgroud、Ready、Start、Confirm、Endに分割する、時間的アクション提案生成の新しいフレームワーク、すなわちContinuous Multi-stage Network(CMSN)を提案します、 フォロー。 ReadyとStart、End、Followをより正確に区別するために、さまざまなカテゴリ間でさまざまなマージンを可能にする、新しい損失関数Variable Margin Cosine Loss(VMCL)を提案します。 THUMOS14での実験では、提案された一時的な提案生成方法が、同じネットワークアーキテクチャとトレーニングデータセットを使用した最新の方法よりも優れていることを示しています。
Accurately locating the start and end time of an action in untrimmed videos is a challenging task. One of the important reasons is the boundary of action is not highly distinguishable, and the features around the boundary are difficult to discriminate. To address this problem, we propose a novel framework for temporal action proposal generation, namely Continuous Multi-stage Network (CMSN), which divides a video that contains a complete action instance into six stages, namely Backgroud, Ready, Start, Confirm, End, Follow. To distinguish between Ready and Start, End and Follow more accurately, we propose a novel loss function, Variable Margin Cosine Loss (VMCL), which allows for different margins between different categories. Our experiments on THUMOS14 show that the proposed method for temporal proposal generation performs better than the state-of-the-art methods using the same network architecture and training dataset.