arXiv reaDer
FASTER Recurrent Networks for Efficient Video Classification
  典型的なビデオ分類方法では、多くの場合、ビデオを短いクリップに分割し、各クリップを個別に推論し、クリップレベルの予測を集計してビデオレベルの結果を生成します。ただし、視覚的に類似したクリップを個別に処理すると、ビデオシーケンスの時間構造が無視され、推論時の計算コストが増加します。この論文では、FASTERという名前の新しいフレームワーク、つまり時空間冗長性のための機能集約を提案します。 FASTERは、異なる複雑さのモデルから予測を集約することを学習することにより、隣接するクリップ間の冗長性を活用し、計算コストを削減することを目的としています。 FASTERフレームワークは、高価なモデルの高品質な表現を統合して、ビデオのシーンの変化に対応するために、安価なモデルの微妙な動き情報と軽量な表現をキャプチャできます。新しいリカレントネットワーク(つまり、FAST-GRU)は、異なる表現の混合を集約するように設計されています。既存のアプローチと比較して、FASTERはFLOPを10倍以上削減できますか? Kinetics、UCF-101、HMDB-51などの一般的なデータセット全体で最新の精度を維持します。
Typical video classification methods often divide a video into short clips, do inference on each clip independently, then aggregate the clip-level predictions to generate the video-level results. However, processing visually similar clips independently ignores the temporal structure of the video sequence, and increases the computational cost at inference time. In this paper, we propose a novel framework named FASTER, i.e., Feature Aggregation for Spatio-TEmporal Redundancy. FASTER aims to leverage the redundancy between neighboring clips and reduce the computational cost by learning to aggregate the predictions from models of different complexities. The FASTER framework can integrate high quality representations from expensive models to capture subtle motion information and lightweight representations from cheap models to cover scene changes in the video. A new recurrent network (i.e., FAST-GRU) is designed to aggregate the mixture of different representations. Compared with existing approaches, FASTER can reduce the FLOPs by over 10x? while maintaining the state-of-the-art accuracy across popular datasets, such as Kinetics, UCF-101 and HMDB-51.
updated: Sun Sep 08 2019 17:10:01 GMT+0000 (UTC)
published: Mon Jun 10 2019 18:54:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト