弱教師付き時間的動作位置特定 (WTAL) は、実用的ではありますが、困難なタスクです。データセットが大規模であるため、既存の手法のほとんどは、他のデータセットで事前トレーニングされたネットワークを使用して特徴を抽出しますが、これは WTAL には十分に適していません。この問題に対処するために、研究者は機能強化のためのいくつかのモジュールを設計し、ローカリゼーション モジュールのパフォーマンスを向上させ、特にスニペット間の時間的関係をモデル化しています。しかし、それらはいずれも、曖昧な情報が他者の識別性を低下させる悪影響を無視している。この現象を考慮して、我々は、曖昧なスニペットと適切に設計された接続を備えた識別スニペットを明示的にモデル化し、曖昧な情報の伝達を防ぎ、スニペットレベルの表現の識別性を高めるDiscriminability-Driven Graph Network (DDG-Net)を提案します。さらに、特徴の同化を防ぎ、より識別的な表現を生成するようにグラフ畳み込みネットワークを駆動するために、特徴の一貫性の損失を提案します。 THUMOS14 および ActivityNet1.2 ベンチマークに関する広範な実験により、DDG-Net の有効性が実証され、両方のデータセットで新しい最先端の結果が確立されました。ソース コードは https://github.com/XiaojunTang22/ICCV2023-DDGNet で入手できます。
Weakly-supervised temporal action localization (WTAL) is a practical yet challenging task. Due to large-scale datasets, most existing methods use a network pretrained in other datasets to extract features, which are not suitable enough for WTAL. To address this problem, researchers design several modules for feature enhancement, which improve the performance of the localization module, especially modeling the temporal relationship between snippets. However, all of them neglect the adverse effects of ambiguous information, which would reduce the discriminability of others. Considering this phenomenon, we propose Discriminability-Driven Graph Network (DDG-Net), which explicitly models ambiguous snippets and discriminative snippets with well-designed connections, preventing the transmission of ambiguous information and enhancing the discriminability of snippet-level representations. Additionally, we propose feature consistency loss to prevent the assimilation of features and drive the graph convolution network to generate more discriminative representations. Extensive experiments on THUMOS14 and ActivityNet1.2 benchmarks demonstrate the effectiveness of DDG-Net, establishing new state-of-the-art results on both datasets. Source code is available at https://github.com/XiaojunTang22/ICCV2023-DDGNet.