arXiv reaDer
Transformerを使用したエンドツーエンドの時間的アクション検出
End-to-end Temporal Action Detection with Transformer
時間的アクション検出(TAD)は、トリミングされていないビデオ内のすべてのアクションインスタンスのセマンティックラベルと境界を決定することを目的としています。以前の方法では、複雑なパイプラインを使用してこのタスクに取り組んでいます。本論文では、単純なセット予測パイプラインを備えたエンドツーエンドの時間的行動検出トランスフォーマー(TadTR)を提案します。アクションクエリと呼ばれる学習可能な埋め込みの小さなセットが与えられると、TadTRは各クエリのビデオから時間的コンテキストを適応的に抽出し、アクションインスタンスを直接予測します。 TransformerをTADに適合させるために、地域の認識を高めるための3つの改善を提案します。コアは、ビデオ内のキースニペットのまばらなセットに選択的に対応する一時的に変形可能なアテンションモジュールです。セグメントリファインメントメカニズムとアクションネス回帰ヘッドは、予測されたインスタンスの境界と信頼性をそれぞれリファインするように設計されています。 TadTRは、優れたパフォーマンスを維持しながら、以前の検出器よりも低い計算コストを必要とします。自己完結型の検出器として、THUMOS14(56.7%mAP)およびHACSセグメント(32.09%mAP)で最先端のパフォーマンスを実現します。追加のアクション分類子と組み合わせると、ActivityNet-1.3で36.75%のmAPを取得します。私たちのコードはhttps://github.com/xlliu7/TadTRで入手できます。
Temporal action detection (TAD) aims to determine the semantic label and the boundaries of every action instance in an untrimmed video. Previous methods tackle this task with complex pipelines. In this paper, we propose an end-to-end temporal action detection Transformer (TadTR) with a simple set prediction pipeline. Given a small set of learnable embeddings called action queries, TadTR adaptively extracts temporal context from the video for each query and directly predicts action instances. To adapt Transformer for TAD, we propose three improvements to enhance its locality awareness. The core is a temporal deformable attention module that selectively attends to a sparse set of key snippets in a video. A segment refinement mechanism and an actionness regression head are designed to refine the boundaries and confidence of the predicted instances, respectively. TadTR requires lower computation cost than previous detectors while preserving remarkable performance. As a self-contained detector, it achieves state-of-the-art performance on THUMOS14 (56.7% mAP) and HACS Segments (32.09% mAP). Combined with an extra action classifier, it obtains 36.75% mAP on ActivityNet-1.3. Our code is available at https://github.com/xlliu7/TadTR.
updated: Sat Jun 11 2022 15:18:28 GMT+0000 (UTC)
published: Fri Jun 18 2021 17:58:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト