arXiv reaDer
バックグラウンド制約のある時間的アクション提案の生成
Temporal Action Proposal Generation with Background Constraint
時間的アクション提案の生成(TAPG)は、時間的境界のあるトリミングされていないビデオ内のアクションインスタンスを見つけることを目的とした挑戦的なタスクです。提案の信頼性を評価するために、既存の作業は通常、提案とグラウンドトゥルースの間の一時的なIntersection-over-Union(tIoU)によって監視される提案のアクションスコアを予測します。本論文では、提案の信頼性を制限するために背景予測スコアを利用することにより、低品質の提案をさらに抑制するための一般的な補助的な背景制約のアイデアを革新的に提案します。このようにして、バックグラウンド制約の概念を既存のTAPGメソッド(BMN、GTADなど)に簡単にプラグインして再生できます。この観点から、アクションとバックグラウンドの豊富な情報をさらに活用するために、バックグラウンド制約ネットワーク(BCNet)を提案します。具体的には、信頼性の高い信頼性評価のためのアクション-バックグラウンドインタラクションモジュールを導入します。このモジュールは、フレームおよびクリップレベルの注意メカニズムによってアクションとバックグラウンド間の不整合をモデル化します。 2つの一般的なベンチマーク、つまりActivityNet-1.3とTHUMOS14で広範な実験が行われます。結果は、私たちの方法が最先端の方法よりも優れていることを示しています。既存のアクション分類器を備えたこの方法は、時間的アクションローカリゼーションタスクでも優れたパフォーマンスを実現します。
Temporal action proposal generation (TAPG) is a challenging task that aims to locate action instances in untrimmed videos with temporal boundaries. To evaluate the confidence of proposals, the existing works typically predict action score of proposals that are supervised by the temporal Intersection-over-Union (tIoU) between proposal and the ground-truth. In this paper, we innovatively propose a general auxiliary Background Constraint idea to further suppress low-quality proposals, by utilizing the background prediction score to restrict the confidence of proposals. In this way, the Background Constraint concept can be easily plug-and-played into existing TAPG methods (e.g., BMN, GTAD). From this perspective, we propose the Background Constraint Network (BCNet) to further take advantage of the rich information of action and background. Specifically, we introduce an Action-Background Interaction module for reliable confidence evaluation, which models the inconsistency between action and background by attention mechanisms at the frame and clip levels. Extensive experiments are conducted on two popular benchmarks, i.e., ActivityNet-1.3 and THUMOS14. The results demonstrate that our method outperforms state-of-the-art methods. Equipped with the existing action classifier, our method also achieves remarkable performance on the temporal action localization task.
updated: Wed Dec 15 2021 09:20:49 GMT+0000 (UTC)
published: Wed Dec 15 2021 09:20:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト