arXiv reaDer
OadTR:トランスフォーマーを使用したオンラインアクション検出
OadTR: Online Action Detection with Transformers
オンラインアクション検出の最新のアプローチは、リカレントニューラルネットワーク(RNN)を適用して長距離の時間的構造をキャプチャする傾向があります。ただし、RNNは非並列性と勾配消失に悩まされているため、最適化するのは困難です。この論文では、これらの問題に取り組むために、OadTRという名前のトランスフォーマーに基づく新しいエンコーダーデコーダーフレームワークを提案します。タスクトークンが付属するエンコーダーは、過去の観測間の関係とグローバルな相互作用をキャプチャすることを目的としています。デコーダーは、予想される将来のクリップ表現を集約することによって補助情報を抽出します。したがって、OadTRは、履歴情報をエンコードし、同時に将来のコンテキストを予測することにより、現在のアクションを認識できます。提案されたOadTRを、HDD、TVSeries、THUMOS14の3つの難しいデータセットで広範囲に評価します。実験結果は、OadTRが現在のRNNベースのアプローチよりも高いトレーニング速度と推論速度を達成し、mAPとmcAPの両方の点で最先端の方法を大幅に上回っていることを示しています。コードはhttps://github.com/wangxiang1230/OadTRで入手できます。
Most recent approaches for online action detection tend to apply Recurrent Neural Network (RNN) to capture long-range temporal structure. However, RNN suffers from non-parallelism and gradient vanishing, hence it is hard to be optimized. In this paper, we propose a new encoder-decoder framework based on Transformers, named OadTR, to tackle these problems. The encoder attached with a task token aims to capture the relationships and global interactions between historical observations. The decoder extracts auxiliary information by aggregating anticipated future clip representations. Therefore, OadTR can recognize current actions by encoding historical information and predicting future context simultaneously. We extensively evaluate the proposed OadTR on three challenging datasets: HDD, TVSeries, and THUMOS14. The experimental results show that OadTR achieves higher training and inference speeds than current RNN based approaches, and significantly outperforms the state-of-the-art methods in terms of both mAP and mcAP. Code is available at https://github.com/wangxiang1230/OadTR.
updated: Mon Jun 21 2021 14:39:35 GMT+0000 (UTC)
published: Mon Jun 21 2021 14:39:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト