arXiv reaDer
Action Shuffling for Weakly Supervised Temporal Localization
弱く監視されたアクションのローカリゼーションは、ビデオレベルの注釈のみを使用してアクションと対応する時間間隔を特定することを目的とした、広範なアプリケーションでの困難なタスクです。このホワイトペーパーでは、アクションの順序と場所に依存しないプロパティを分析し、それらを自己拡張学習フレームワークに具体化して、弱教師ありアクションのローカリゼーションパフォーマンスを向上させます。具体的には、ActShufNetと呼ばれる、アクション内/アクション間シャッフルを備えた新しい2ブランチネットワークアーキテクチャを提案します。アクション内シャッフルブランチは、自己監視順序予測タスクをレイアウトして、ビデオ内の関連性を備えたビデオ表現を強化します。一方、アクション間シャッフルブランチは、既存のアクションコンテンツに再編成戦略を課して、トレーニングセットに頼らずにトレーニングセットを強化します。外部リソース。さらに、無関係なノイズに対するモデルの堅牢性を強化するために、グローバルローカルの敵対トレーニングが提示されます。 3つのベンチマークデータセットで広範な実験が行われ、その結果は提案された方法の有効性を明確に示しています。
Weakly supervised action localization is a challenging task with extensive applications, which aims to identify actions and the corresponding temporal intervals with only video-level annotations available. This paper analyzes the order-sensitive and location-insensitive properties of actions, and embodies them into a self-augmented learning framework to improve the weakly supervised action localization performance. To be specific, we propose a novel two-branch network architecture with intra/inter-action shuffling, referred to as ActShufNet. The intra-action shuffling branch lays out a self-supervised order prediction task to augment the video representation with inner-video relevance, whereas the inter-action shuffling branch imposes a reorganizing strategy on the existing action contents to augment the training set without resorting to any external resources. Furthermore, the global-local adversarial training is presented to enhance the model's robustness to irrelevant noises. Extensive experiments are conducted on three benchmark datasets, and the results clearly demonstrate the efficacy of the proposed method.
updated: Mon May 10 2021 09:05:58 GMT+0000 (UTC)
published: Mon May 10 2021 09:05:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト