ビデオ フレーム補間 (VFI) モデルは、すべての位置に畳み込み演算を適用するため、動きやすい領域では冗長な計算が行われます。動的空間枝刈り手法を使用して冗長な計算をスキップできますが、この手法では、監視なしでは VFI タスクの容易な領域を適切に識別できません。この論文では、効率的なフレーム補間を動的に行うために冗長な計算をスキップする不確実性誘導空間枝刈り (UGSP) アーキテクチャを開発します。具体的には、不確実性が低いピクセルは、望ましくない視覚的結果をもたらすことなく計算を削減できる簡単な領域を示します。したがって、不確実性によって生成されたマスク ラベルを利用して、UGSP が簡単な領域を適切に特定できるようにします。さらに、UGSP のパフォーマンスを向上させるために補助的な非枝刈りブランチを活用するセルフコントラスト トレーニング戦略を提案します。広範な実験により、UGSP はパフォーマンスを維持しながら、Vimeo90K/UCF101/MiddleBury データセットでプルーニングなしのベースラインと比較して FLOP を 34%/52%/30% 削減することが示されました。さらに、私たちの手法は、複数のベンチマークでより低い FLOP で最先端のパフォーマンスを実現します。
The video frame interpolation (VFI) model applies the convolution operation to all locations, leading to redundant computations in regions with easy motion. We can use dynamic spatial pruning method to skip redundant computation, but this method cannot properly identify easy regions in VFI tasks without supervision. In this paper, we develop an Uncertainty-Guided Spatial Pruning (UGSP) architecture to skip redundant computation for efficient frame interpolation dynamically. Specifically, pixels with low uncertainty indicate easy regions, where the calculation can be reduced without bringing undesirable visual results. Therefore, we utilize uncertainty-generated mask labels to guide our UGSP in properly locating the easy region. Furthermore, we propose a self-contrast training strategy that leverages an auxiliary non-pruning branch to improve the performance of our UGSP. Extensive experiments show that UGSP maintains performance but reduces FLOPs by 34%/52%/30% compared to baseline without pruning on Vimeo90K/UCF101/MiddleBury datasets. In addition, our method achieves state-of-the-art performance with lower FLOPs on multiple benchmarks.