arXiv reaDer
Extreme Low Resolution Activity Recognition with Confident Spatial-Temporal Attention Transfer
12 * 16ピクセルなどの極端な低解像度ビデオでのアクティビティ認識は、遠景監視とプライバシー保護マルチメディア分析で重要な役割を果たします。低解像度のビデオには、限られた情報しか含まれていません。 1つの同じアクティビティが高解像度(HR)と極低解像度(eLR)の両方のビデオで表される可能性があるという事実を考えると、eLRアクティビティの認識を改善するために関連するHRデータを利用することを検討する価値があります。この作業では、eLR活動認識のための新しい自信のある時空間注意転送(CSTAT)を提案します。 CSTATは、転移学習戦略で注意の違いを減らすことにより、HRデータから情報を取得できます。さらに、より信頼性の高い転送プロセスのために、監視信号の信頼性も考慮されます。 2つのよく知られたデータセット、つまりUCF101とHMDB51での実験結果は、提案された方法がeLRアクティビティ認識の精度を効果的に改善し、HMDB51の12 * 16ビデオで59.23%の精度を達成できることを示しています。最先端のパフォーマンス。
Activity recognition on extreme low-resolution videos, e.g., a resolution of 12*16 pixels, plays a vital role in far-view surveillance and privacy-preserving multimedia analysis. Low-resolution videos only contain limited information. Given the fact that one same activity may be represented by videos in both high resolution (HR) and extreme low resolution (eLR), it is worth studying to utilize the relevant HR data to improve the eLR activity recognition. In this work, we propose a novel Confident Spatial-Temporal Attention Transfer (CSTAT) for eLR activity recognition. CSTAT can acquire information from HR data by reducing the attention differences with a transfer-learning strategy. Besides, the credibility of the supervisory signal is also taken into consideration for a more confident transferring process. Experimental results on two well-known datasets, i.e., UCF101 and HMDB51, demonstrate that, the proposed method can effectively improve the accuracy of eLR activity recognition and achieve an accuracy of 59.23% on 12*16 videos in HMDB51, a state-of-the-art performance.
updated: Sun Oct 10 2021 13:58:53 GMT+0000 (UTC)
published: Mon Sep 09 2019 01:02:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト