Weakly Supervised Temporal Action Localization (WTAL) は、トレーニング データセット内のビデオ レベルのカテゴリ ラベルのみを指定して、ビデオのアクションの時間的境界を分類およびローカライズすることを目的としています。トレーニング中の境界情報が不足しているため、既存のアプローチでは WTAL を分類問題として定式化します。つまり、ローカリゼーションのために時間クラス活性化マップ (T-CAM) を生成します。ただし、分類損失だけでは、モデルは最適化されていません。つまり、アクション関連のシーンは、異なるクラス ラベルを区別するのに十分です。アクション関連シーンの他のアクション (つまり、ポジティブ アクションと同じシーン) を同時シーン アクションと見なすと、この最適化されていないモデルは、同時シーン アクションをポジティブ アクションとして誤分類します。この誤分類に対処するために、双方向意味的一貫性制約 (Bi-SCC) と呼ばれるシンプルで効率的な方法を提案し、肯定的なアクションをコシーン アクションから区別します。提案された Bi-SCC は、最初に一時的なコンテキスト拡張を採用して、ビデオ間での肯定的なアクションとそのコシーン アクションとの間の相関関係を壊す拡張ビデオを生成します。次に、セマンティック整合性制約 (SCC) を使用して、元のビデオと拡張ビデオの予測が一致するように強制することで、共同シーン アクションを抑制します。ただし、この拡張ビデオは元の時間的コンテキストを破壊することがわかりました。一貫性制約を適用するだけでは、局所的なポジティブ アクションの完全性に影響を与えます。したがって、元のビデオと拡張されたビデオを相互監視することにより、双方向の方法で SCC をブーストして、肯定的なアクションの完全性を確保しながら、共同シーン アクションを抑制します。最後に、提案された Bi-SCC を現在の WTAL アプローチに適用して、そのパフォーマンスを向上させることができます。実験結果は、私たちのアプローチが THUMOS14 と ActivityNet の最先端の方法よりも優れていることを示しています。
Weakly Supervised Temporal Action Localization (WTAL) aims to classify and localize temporal boundaries of actions for the video, given only video-level category labels in the training datasets. Due to the lack of boundary information during training, existing approaches formulate WTAL as a classificationproblem, i.e., generating the temporal class activation map (T-CAM) for localization. However, with only classification loss, the model would be sub-optimized, i.e., the action-related scenes are enough to distinguish different class labels. Regarding other actions in the action-related scene ( i.e., the scene same as positive actions) as co-scene actions, this sub-optimized model would misclassify the co-scene actions as positive actions. To address this misclassification, we propose a simple yet efficient method, named bidirectional semantic consistency constraint (Bi-SCC), to discriminate the positive actions from co-scene actions. The proposed Bi-SCC firstly adopts a temporal context augmentation to generate an augmented video that breaks the correlation between positive actions and their co-scene actions in the inter-video; Then, a semantic consistency constraint (SCC) is used to enforce the predictions of the original video and augmented video to be consistent, hence suppressing the co-scene actions. However, we find that this augmented video would destroy the original temporal context. Simply applying the consistency constraint would affect the completeness of localized positive actions. Hence, we boost the SCC in a bidirectional way to suppress co-scene actions while ensuring the integrity of positive actions, by cross-supervising the original and augmented videos. Finally, our proposed Bi-SCC can be applied to current WTAL approaches, and improve their performance. Experimental results show that our approach outperforms the state-of-the-art methods on THUMOS14 and ActivityNet.