arXiv reaDer
スロー モーションの重要性: 弱い監視下での時間アクション ローカリゼーションのためのスロー モーション拡張ネットワーク
Slow Motion Matters: A Slow Motion Enhanced Network for Weakly Supervised Temporal Action Localization
弱い監督下の一時的アクション ローカリゼーション (WTAL) は、弱い監督情報 (ビデオ レベルのラベルなど) のみを使用して、トリミングされていないビデオのアクションをローカライズすることを目的としています。ほとんどの既存のモデルは、すべての入力ビデオを固定の時間スケールで処理します。しかし、そのようなモデルは、動きのペースが「通常の」速度とは異なるアクション、特に通常の速度の対応するものよりもはるかに遅い速度で動きを完了するスローモーション アクション インスタンスには敏感ではありません。スローモーションのぼやけの問題: ビデオから顕著なスローモーション情報を「通常の」速度で調べるのは困難です。この論文では、スローモーションアクションセグメントの感度を補償することにより、WTALネットワークの能力を向上させるスローモーション拡張ネットワーク(SMEN)と呼ばれる新しいフレームワークを提案します。提案された SMEN は、マイニング モジュールとローカリゼーション モジュールで構成されます。マイニング モジュールは、通常のモーションとスロー モーションの関係を利用して、スロー モーション関連の特徴をマイニングするためのマスクを生成します。ローカリゼーション モジュールは、マイニングされたスローモーション機能を補完的な情報として活用して、一時的なアクションのローカリゼーション結果を改善します。私たちが提案するフレームワークは、既存の WTAL ネットワークに簡単に適応させることができ、スローモーション アクションに対してより敏感になることができます。 3 つのベンチマークで広範な実験が行われ、提案されたフレームワークの高いパフォーマンスが実証されています。
Weakly supervised temporal action localization (WTAL) aims to localize actions in untrimmed videos with only weak supervision information (e.g. video-level labels). Most existing models handle all input videos with a fixed temporal scale. However, such models are not sensitive to actions whose pace of the movements is different from the ``normal" speed, especially slow-motion action instances, which complete the movements with a much slower speed than their counterparts with a normal speed. Here arises the slow-motion blurred issue: It is hard to explore salient slow-motion information from videos at ``normal" speed. In this paper, we propose a novel framework termed Slow Motion Enhanced Network (SMEN) to improve the ability of a WTAL network by compensating its sensitivity on slow-motion action segments. The proposed SMEN comprises a Mining module and a Localization module. The mining module generates mask to mine slow-motion-related features by utilizing the relationships between the normal motion and slow motion; while the localization module leverages the mined slow-motion features as complementary information to improve the temporal action localization results. Our proposed framework can be easily adapted by existing WTAL networks and enable them be more sensitive to slow-motion actions. Extensive experiments on three benchmarks are conducted, which demonstrate the high performance of our proposed framework.
updated: Mon Nov 21 2022 10:15:19 GMT+0000 (UTC)
published: Mon Nov 21 2022 10:15:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト