arXiv reaDer
一時的なアクションのローカリゼーションのためのマルチラベルアクションの依存関係のモデリング
Modeling Multi-Label Action Dependencies for Temporal Action Localization
実際のビデオには、アクションクラス間に固有の関係を持つ多くの複雑なアクションが含まれています。この作業では、トリミングされていないビデオでの一時的なアクションのローカリゼーションのタスクのためにこれらのアクションの関係をモデル化する注意ベースのアーキテクチャを提案します。アクションのビデオレベルの共起を活用する以前の作品とは対照的に、同じタイムステップで発生するアクションと異なるタイムステップで発生するアクション(つまり、互いに先行または後続するアクション)の関係を区別します。これらの明確な関係をアクションの依存関係として定義します。これらのアクション依存関係を新しい注意ベースのマルチラベルアクション依存関係(MLAD)レイヤーでモデル化することにより、アクションローカリゼーションのパフォーマンスを向上させることを提案します。 MLADレイヤーは、共起依存ブランチと時間依存ブランチの2つのブランチで構成され、それぞれ共起アクションの依存関係と時間アクションの依存関係をモデル化します。マルチラベル分類に使用される既存のメトリックは、アクションの依存関係がどの程度適切にモデル化されているかを明示的に測定しないため、アクションクラス間の共起と時間の依存関係の両方を考慮する新しいメトリックを提案します。経験的評価と広範な分析を通じて、f-mAPと提案されたメトリックの観点から、マルチラベルアクションローカリゼーションベンチマーク(MultiTHUMOSとCharades)で最先端の方法よりもパフォーマンスが向上していることを示しています。
Real-world videos contain many complex actions with inherent relationships between action classes. In this work, we propose an attention-based architecture that models these action relationships for the task of temporal action localization in untrimmed videos. As opposed to previous works that leverage video-level co-occurrence of actions, we distinguish the relationships between actions that occur at the same time-step and actions that occur at different time-steps (i.e. those which precede or follow each other). We define these distinct relationships as action dependencies. We propose to improve action localization performance by modeling these action dependencies in a novel attention-based Multi-Label Action Dependency (MLAD)layer. The MLAD layer consists of two branches: a Co-occurrence Dependency Branch and a Temporal Dependency Branch to model co-occurrence action dependencies and temporal action dependencies, respectively. We observe that existing metrics used for multi-label classification do not explicitly measure how well action dependencies are modeled, therefore, we propose novel metrics that consider both co-occurrence and temporal dependencies between action classes. Through empirical evaluation and extensive analysis, we show improved performance over state-of-the-art methods on multi-label action localization benchmarks(MultiTHUMOS and Charades) in terms of f-mAP and our proposed metric.
updated: Sat May 29 2021 16:19:41 GMT+0000 (UTC)
published: Thu Mar 04 2021 13:37:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト