arXiv reaDer
RGB Stream Is Enough for Temporal Action Detection
これまでの最先端の時間動作検出器は、RGBフレームとオプティカルフローを含む2ストリーム入力に基づいています。 RGBフレームとオプティカルフローを組み合わせるとパフォーマンスが大幅に向上しますが、オプティカルフローは手作業で設計された表現であるため、大量の計算が必要になるだけでなく、2ストリームの方法がフローと一緒にエンドツーエンドで学習されないことが多く、方法論的に不十分です。 。この論文では、オプティカルフローは高精度の時間的アクション検出に不可欠であり、オプティカルフローが削除されたときのパフォーマンスの低下を回避するための重要なソリューションは画像レベルのデータ拡張(ILDA)であると主張します。 ILDAの有効性を評価するために、DaoTADという名前の単一のRGBストリームに基づいて、シンプルでありながら効率的な1ステージの時間アクション検出器を設計します。私たちの結果は、ILDAでトレーニングした場合、DaoTADは既存のすべての最先端の2ストリーム検出器と同等の精度を持ちながら、以前の方法の推論速度を大幅に上回り、GeForceGTXでの推論速度は驚異的な6668fpsであることを示しています。 1080Ti。コードはで入手できます。
State-of-the-art temporal action detectors to date are based on two-stream input including RGB frames and optical flow. Although combining RGB frames and optical flow boosts performance significantly, optical flow is a hand-designed representation which not only requires heavy computation, but also makes it methodologically unsatisfactory that two-stream methods are often not learned end-to-end jointly with the flow. In this paper, we argue that optical flow is dispensable in high-accuracy temporal action detection and image level data augmentation (ILDA) is the key solution to avoid performance degradation when optical flow is removed. To evaluate the effectiveness of ILDA, we design a simple yet efficient one-stage temporal action detector based on single RGB stream named DaoTAD. Our results show that when trained with ILDA, DaoTAD has comparable accuracy with all existing state-of-the-art two-stream detectors while surpassing the inference speed of previous methods by a large margin and the inference speed is astounding 6668 fps on GeForce GTX 1080 Ti. Code is available at
updated: Fri Jul 09 2021 11:10:11 GMT+0000 (UTC)
published: Fri Jul 09 2021 11:10:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト