arXiv reaDer
ビデオ全体を背景として強制する:弱い時間的アクションのローカリゼーションのための敵対的学習戦略
Forcing the Whole Video as Background: An Adversarial Learning Strategy for Weakly Temporal Action Localization
ビデオレベルのラベルを使用すると、弱く監視された時間的アクションローカリゼーション(WTAL)は、分類によるローカリゼーションパラダイムを適用して、トリミングされていないビデオのアクションを検出および分類します。分類の特性により、WTALでの分類子の識別性を向上させるために、クラス固有の背景スニペットは必然的に誤ってアクティブ化されます。背景の乱れを軽減するために、既存の方法では、主に人工的な仮説に依存する疑似スニペットレベルの注釈を使用して背景スニペットをモデル化することにより、アクションと背景の間の不一致を拡大しようとします。以前の作品とは異なり、疑似背景スニペットのマイニングの制限を打破するための敵対的な学習戦略を提示します。具体的には、背景分類の損失により、ビデオ全体が背景勾配強化戦略によって背景と見なされるようになり、認識モデルが混乱します。逆に、フォアグラウンド(アクション)損失は、モデルがそのような条件下でアクションスニペットに焦点を合わせるようにガイドします。その結果、2つの分類損失間の競合により、モデルはアクションモデリングの能力を高めます。同時に、アクションローカリゼーションのパフォーマンスをさらに向上させるために、提案された戦略に基づいてモデルがアフィニティスニペットの時間的関係を構築するのを容易にするために、新しい時間的強化ネットワークが設計されています。最後に、THUMOS14とActivityNet1.2で実施された広範な実験は、提案された方法の有効性を示しています。
With video-level labels, weakly supervised temporal action localization (WTAL) applies a localization-by-classification paradigm to detect and classify the action in untrimmed videos. Due to the characteristic of classification, class-specific background snippets are inevitably mis-activated to improve the discriminability of the classifier in WTAL. To alleviate the disturbance of background, existing methods try to enlarge the discrepancy between action and background through modeling background snippets with pseudo-snippet-level annotations, which largely rely on artificial hypotheticals. Distinct from the previous works, we present an adversarial learning strategy to break the limitation of mining pseudo background snippets. Concretely, the background classification loss forces the whole video to be regarded as the background by a background gradient reinforcement strategy, confusing the recognition model. Reversely, the foreground(action) loss guides the model to focus on action snippets under such conditions. As a result, competition between the two classification losses drives the model to boost its ability for action modeling. Simultaneously, a novel temporal enhancement network is designed to facilitate the model to construct temporal relation of affinity snippets based on the proposed strategy, for further improving the performance of action localization. Finally, extensive experiments conducted on THUMOS14 and ActivityNet1.2 demonstrate the effectiveness of the proposed method.
updated: Thu Jul 14 2022 05:13:50 GMT+0000 (UTC)
published: Thu Jul 14 2022 05:13:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト