時間的アクション提案の生成は、ビデオの理解において重要で挑戦的なタスクであり、関心のあるアクションインスタンスを含むすべての時間的セグメントを検出することを目的としています。既存の提案生成アプローチは、通常、事前定義されたアンカーウィンドウまたはヒューリスティックなボトムアップ境界マッチング戦略に基づいています。このホワイトペーパーでは、Transformerに似たアーキテクチャを再利用することにより、直接アクションの提案を生成するためのシンプルで効率的なフレームワーク(RTD-Net)を紹介します。時間と空間の本質的な視覚的な違いに取り組むために、元のトランス検出フレームワーク(DETR)に対して3つの重要な改善を行います。まず、ビデオの前の速度低下に対処するために、元のTransformerエンコーダーを境界注意モジュールに置き換えて、長距離の時間情報をより適切にキャプチャします。第二に、あいまいな時間的境界と比較的まばらな注釈のために、各グラウンドトゥルースへの単一割り当ての厳密な基準を緩和するための緩和されたマッチングスキームを提示します。最後に、その完全性を明示的に予測することにより、提案の信頼性推定をさらに改善するために、3つのブランチヘッドを考案します。 THUMOS14およびActivityNet-1.3ベンチマークに関する広範な実験は、時間的アクション提案の生成と時間的アクションの検出の両方のタスクにおけるRTD-Netの有効性を示しています。さらに、設計が単純であるため、私たちのフレームワークは、非最大抑制の後処理なしで、以前の提案生成方法よりも効率的です。コードとモデルはhttps://github.com/MCG-NJU/RTD-Actionで入手できます。
Temporal action proposal generation is an important and challenging task in video understanding, which aims at detecting all temporal segments containing action instances of interest. The existing proposal generation approaches are generally based on pre-defined anchor windows or heuristic bottom-up boundary matching strategies. This paper presents a simple and efficient framework (RTD-Net) for direct action proposal generation, by re-purposing a Transformer-alike architecture. To tackle the essential visual difference between time and space, we make three important improvements over the original transformer detection framework (DETR). First, to deal with slowness prior in videos, we replace the original Transformer encoder with a boundary attentive module to better capture long-range temporal information. Second, due to the ambiguous temporal boundary and relatively sparse annotations, we present a relaxed matching scheme to relieve the strict criteria of single assignment to each groundtruth. Finally, we devise a three-branch head to further improve the proposal confidence estimation by explicitly predicting its completeness. Extensive experiments on THUMOS14 and ActivityNet-1.3 benchmarks demonstrate the effectiveness of RTD-Net, on both tasks of temporal action proposal generation and temporal action detection. Moreover, due to its simplicity in design, our framework is more efficient than previous proposal generation methods, without non-maximum suppression post-processing. The code and models are made available at https://github.com/MCG-NJU/RTD-Action.