arXiv reaDer
オンラインアクション検出のための長期短期変圧器
Long Short-Term Transformer for Online Action Detection
長期および短期記憶メカニズムを使用して長期シーケンスデータをモデル化する、オンラインアクション検出の時間モデリングアルゴリズムであるLong Short-term TRansformer(LSTR)を紹介します。これは、拡張された時間ウィンドウ(たとえば、最大8分の2048フレームスパン)からの粗いスケールの履歴情報を動的に活用するLSTRエンコーダーと、短い時間ウィンドウ(たとえば、32フレームスパン)に焦点を当てるLSTRデコーダーで構成されます。 8秒)データの詳細な特性をモデル化します。以前の作業と比較して、LSTRは、より少ないヒューリスティックで長いビデオをモデル化するための効果的かつ効率的な方法を提供します。これは、広範な経験的分析によって検証されます。 LSTRは、THUMOS'14、TVSeries、およびHACSセグメントの3つの標準オンラインアクション検出ベンチマークで最先端のパフォーマンスを実現します。コードはhttps://xumingze0308.github.io/projects/lstrで利用可能になりました
We present Long Short-term TRansformer (LSTR), a temporal modeling algorithm for online action detection, which employs a long- and short-term memory mechanism to model prolonged sequence data. It consists of an LSTR encoder that dynamically leverages coarse-scale historical information from an extended temporal window (e.g., 2048 frames spanning of up to 8 minutes), together with an LSTR decoder that focuses on a short time window (e.g., 32 frames spanning 8 seconds) to model the fine-scale characteristics of the data. Compared to prior work, LSTR provides an effective and efficient method to model long videos with fewer heuristics, which is validated by extensive empirical analysis. LSTR achieves state-of-the-art performance on three standard online action detection benchmarks, THUMOS'14, TVSeries, and HACS Segment. Code has been made available at: https://xumingze0308.github.io/projects/lstr
updated: Wed Dec 22 2021 18:01:50 GMT+0000 (UTC)
published: Wed Jul 07 2021 17:49:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト