arXiv reaDer
長期の短期特徴集約による圧縮ビデオでのリアルタイムで正確なオブジェクト検出
Real-Time and Accurate Object Detection in Compressed Video by Long Short-term Feature Aggregation
ビデオオブジェクトの検出は、コンピュータビジョンの基本的な問題であり、幅広いアプリケーションがあります。深いネットワークに基づいて、ビデオオブジェクト検出は、検出速度と精度の限界を押し上げるために積極的に研究されています。計算コストを削減するために、ビデオのキーフレームをまばらにサンプリングし、残りのフレームを非キーフレームとして扱います。大規模で深いネットワークはキーフレームの特徴を抽出するために使用され、小さなネットワークは非キーフレームに使用されます。非キーフレームの機能を強化するために、キーフレーム機能の豊富な情報を非キーフレーム機能に高速に伝播する新しい短期機能集約方法を提案します。高速機能集約は、圧縮されたビデオで自由に利用できるモーションキューによって可能になります。さらに、主要なフレーム機能もオプティカルフローに基づいて集約されます。伝播された深い特徴は、オブジェクト検出のために直接抽出された特徴と統合されます。特徴抽出および特徴統合パラメーターは、エンドツーエンドの方法で最適化されます。提案されたビデオオブジェクト検出ネットワークは、大規模なImageNet VIDベンチマークで評価され、Titan XGPUを使用して30FPSの速度で、最先端の精度と同等の77.2%のmAPを達成します。ソースコードはhttps://github.com/hustvl/LSFAで入手できます。
Video object detection is a fundamental problem in computer vision and has a wide spectrum of applications. Based on deep networks, video object detection is actively studied for pushing the limits of detection speed and accuracy. To reduce the computation cost, we sparsely sample key frames in video and treat the rest frames are non-key frames; a large and deep network is used to extract features for key frames and a tiny network is used for non-key frames. To enhance the features of non-key frames, we propose a novel short-term feature aggregation method to propagate the rich information in key frame features to non-key frame features in a fast way. The fast feature aggregation is enabled by the freely available motion cues in compressed videos. Further, key frame features are also aggregated based on optical flow. The propagated deep features are then integrated with the directly extracted features for object detection. The feature extraction and feature integration parameters are optimized in an end-to-end manner. The proposed video object detection network is evaluated on the large-scale ImageNet VID benchmark and achieves 77.2% mAP, which is on-par with state-of-the-art accuracy, at the speed of 30 FPS using a Titan X GPU. The source codes are available at https://github.com/hustvl/LSFA.
updated: Thu Mar 25 2021 01:38:31 GMT+0000 (UTC)
published: Thu Mar 25 2021 01:38:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト