arXiv reaDer
時間的動作検出のための自己フィードバック DETR
Self-Feedback DETR for Temporal Action Detection
時間的動作検出 (TAD) は困難ですが、現実世界のビデオ アプリケーションにとっては基本です。最近、DETR ベースのモデルが TAD 用に考案されましたが、まだ十分なパフォーマンスを発揮していません。この論文では、TAD に対する DETR の自己注意の問題点を指摘します。注意モジュールは、時間的崩壊問題と呼ばれるいくつかの重要な要素に焦点を当てます。エンコーダとデコーダのセルフアテンション モジュールは何の役割も果たさないため、エンコーダとデコーダの機能が低下します。この問題を解決するために、デコーダのクロスアテンション マップを利用してセルフ アテンション モジュールを再アクティブ化する新しいフレームワーク Self-DETR を提案します。クロスアテンションマップとその転置の単純な行列乗算によってエンコーダ特徴間の関係を回復します。同様に、デコーダ クエリ内の情報も取得します。計算されたガイダンスマップを使用して崩壊した自己注意マップを誘導することにより、エンコーダとデコーダ内の自己注意モジュールの時間的崩壊を解決します。私たちの広範な実験は、Self-DETR がすべての層にわたって注意の多様性を高く保つことによって時間的崩壊の問題を解決することを示しています。
Temporal Action Detection (TAD) is challenging but fundamental for real-world video applications. Recently, DETR-based models have been devised for TAD but have not performed well yet. In this paper, we point out the problem in the self-attention of DETR for TAD; the attention modules focus on a few key elements, called temporal collapse problem. It degrades the capability of the encoder and decoder since their self-attention modules play no role. To solve the problem, we propose a novel framework, Self-DETR, which utilizes cross-attention maps of the decoder to reactivate self-attention modules. We recover the relationship between encoder features by simple matrix multiplication of the cross-attention map and its transpose. Likewise, we also get the information within decoder queries. By guiding collapsed self-attention maps with the guidance map calculated, we settle down the temporal collapse of self-attention modules in the encoder and decoder. Our extensive experiments demonstrate that Self-DETR resolves the temporal collapse problem by keeping high diversity of attention over all layers.
updated: Mon Aug 21 2023 09:01:14 GMT+0000 (UTC)
published: Mon Aug 21 2023 09:01:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト