行動認識のための最近の増分学習では、通常、壊滅的な忘却を軽減するために代表的なビデオが保存されます。ただし、メモリが限られているため、かさばるビデオはいくつかしか保存できません。この問題に対処するために、選択したビデオごとに圧縮されたフレームを生成することを学習する、メモリ効率の高いビデオ クラスの増分学習アプローチである FrameMaker を提案します。具体的には、FrameMaker は主に、フレーム コンデンシングとインスタンス固有プロンプトという 2 つの重要なコンポーネントで構成されています。前者は、ビデオ全体ではなく 1 つの圧縮フレームのみを保持することでメモリ コストを削減することを目的としていますが、後者は、フレームの圧縮段階で失われた時空間の詳細を補うことを目的としています。これにより、FrameMaker はメモリの大幅な削減を可能にしますが、後続の増分タスクに適用できる十分な情報を保持します。 HMDB51、UCF101、Something-Something V2 などの複数の挑戦的なベンチマークでの実験結果は、FrameMaker が 20% のメモリしか消費せずに最近の高度な方法よりも優れたパフォーマンスを達成できることを示しています。さらに、同じメモリ消費条件の下で、FrameMaker は既存の最先端技術を説得力のある差で大幅に上回っています。
Recent incremental learning for action recognition usually stores representative videos to mitigate catastrophic forgetting. However, only a few bulky videos can be stored due to the limited memory. To address this problem, we propose FrameMaker, a memory-efficient video class-incremental learning approach that learns to produce a condensed frame for each selected video. Specifically, FrameMaker is mainly composed of two crucial components: Frame Condensing and Instance-Specific Prompt. The former is to reduce the memory cost by preserving only one condensed frame instead of the whole video, while the latter aims to compensate the lost spatio-temporal details in the Frame Condensing stage. By this means, FrameMaker enables a remarkable reduction in memory but keep enough information that can be applied to following incremental tasks. Experimental results on multiple challenging benchmarks, i.e., HMDB51, UCF101 and Something-Something V2, demonstrate that FrameMaker can achieve better performance to recent advanced methods while consuming only 20% memory. Additionally, under the same memory consumption conditions, FrameMaker significantly outperforms existing state-of-the-arts by a convincing margin.