arXiv reaDer
TriDet: 相対境界モデリングによる時間アクション検出
TriDet: Temporal Action Detection with Relative Boundary Modeling
この論文では、一時的なアクション検出のための 1 段階のフレームワーク TriDet を提示します。既存の方法では、ビデオ内のアクション境界があいまいなため、境界予測が不正確になることがよくあります。この問題を軽減するために、境界の周りの推定相対確率分布を介してアクション境界をモデル化するための新しいトライデントヘッドを提案します。 TriDet の機能ピラミッドでは、効率的なスケーラブル粒度知覚 (SGP) レイヤーを提案して、ビデオ機能で発生する自己注意のランク損失問題を軽減し、さまざまな時間粒度にわたって情報を集約します。 Trident-head と SGP ベースの機能ピラミッドの恩恵を受けて、TriDet は、THUMOS14、HACS、および EPIC-KITCHEN 100 の 3 つの困難なベンチマークで最先端のパフォーマンスを達成し、以前の方法と比較して計算コストが低くなります。たとえば、TriDet は THUMOS14 で 69.3% の平均 mAP を達成し、以前の最高のパフォーマンスを 2.5% 上回っていますが、レイテンシはわずか 74.6% です。コードは https://github.com/sssste/TriDet にリリースされています。
In this paper, we present a one-stage framework TriDet for temporal action detection. Existing methods often suffer from imprecise boundary predictions due to the ambiguous action boundaries in videos. To alleviate this problem, we propose a novel Trident-head to model the action boundary via an estimated relative probability distribution around the boundary. In the feature pyramid of TriDet, we propose an efficient Scalable-Granularity Perception (SGP) layer to mitigate the rank loss problem of self-attention that takes place in the video features and aggregate information across different temporal granularities. Benefiting from the Trident-head and the SGP-based feature pyramid, TriDet achieves state-of-the-art performance on three challenging benchmarks: THUMOS14, HACS and EPIC-KITCHEN 100, with lower computational costs, compared to previous methods. For example, TriDet hits an average mAP of 69.3% on THUMOS14, outperforming the previous best by 2.5%, but with only 74.6% of its latency. The code is released to https://github.com/sssste/TriDet.
updated: Mon Mar 13 2023 17:59:59 GMT+0000 (UTC)
published: Mon Mar 13 2023 17:59:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト