arXiv reaDer
SRF-Net:アンカーフリーの時間的アクション検出のための選択的受容野ネットワーク
SRF-Net: Selective Receptive Field Network for Anchor-Free Temporal Action Detection
時間的アクション検出(TAD)は、トリミングされていないビデオ内の人間のアクションを時間的にローカライズして認識することを目的とした挑戦的なタスクです。現在の主流の1ステージTADアプローチは、アクションインスタンスの場所とスケールが設計者によって設定される、事前定義されたアンカーに依存してアクション提案をローカライズおよび分類します。明らかに、このようなアンカーベースのTADメソッドは、その一般化機能を制限し、ビデオに豊富なアクションバリエーションが含まれている場合にパフォーマンスの低下につながります。この研究では、TADメソッドの事前定義されたアンカーの要件を削除することを検討します。選択的受容野ネットワーク(SRF-Net)と呼ばれる新しいTADモデルが開発されました。このモデルでは、各時間的位置での位置オフセットと分類スコアを特徴マップで直接推定でき、SRF-Netはエンドツーエンドでトレーニングされます。マナーを終了します。革新的に、選択的受容野畳み込み(SRFC)と呼ばれるビルディングブロックは、特徴マップの各時間的位置で入力情報の複数のスケールに従って受容野サイズを適応的に調整できるように専用に設計されています。 THUMOS14データセットで広範な実験が行われ、最先端のTADアプローチと比較して優れた結果が報告されています。
Temporal action detection (TAD) is a challenging task which aims to temporally localize and recognize the human action in untrimmed videos. Current mainstream one-stage TAD approaches localize and classify action proposals relying on pre-defined anchors, where the location and scale for action instances are set by designers. Obviously, such an anchor-based TAD method limits its generalization capability and will lead to performance degradation when videos contain rich action variation. In this study, we explore to remove the requirement of pre-defined anchors for TAD methods. A novel TAD model termed as Selective Receptive Field Network (SRF-Net) is developed, in which the location offsets and classification scores at each temporal location can be directly estimated in the feature map and SRF-Net is trained in an end-to-end manner. Innovatively, a building block called Selective Receptive Field Convolution (SRFC) is dedicatedly designed which is able to adaptively adjust its receptive field size according to multiple scales of input information at each temporal location in the feature map. Extensive experiments are conducted on the THUMOS14 dataset, and superior results are reported comparing to state-of-the-art TAD approaches.
updated: Tue Jun 29 2021 11:29:16 GMT+0000 (UTC)
published: Tue Jun 29 2021 11:29:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト