arXiv reaDer
ビデオフレーム補間トランスフォーマー
Video Frame Interpolation Transformer
ビデオ補間の既存の方法は、深い畳み込みニューラルネットワークに大きく依存しているため、コンテンツにとらわれないカーネルの重みや制限された受容野など、固有の制限に悩まされています。これらの問題に対処するために、コンテンツを意識した集約の重みを可能にし、自己注意操作との長期的な依存関係を考慮するTransformerベースのビデオ補間フレームワークを提案します。グローバルな自己注意の高い計算コストを回避するために、ローカル注意の概念をビデオ補間に導入し、それを時空間ドメインに拡張します。さらに、メモリ使用量を節約するための時空間分離戦略を提案します。これにより、パフォーマンスも向上します。さらに、トランスフォーマーの可能性を完全に実現するために、マルチスケールフレームシンセシススキームを開発します。広範な実験は、提案されたモデルが、さまざまなベンチマークデータセットに対して定量的および定性的に最先端の方法に対して有利に機能することを示しています。
Existing methods for video interpolation heavily rely on deep convolution neural networks, and thus suffer from their intrinsic limitations, such as content-agnostic kernel weights and restricted receptive field. To address these issues, we propose a Transformer-based video interpolation framework that allows content-aware aggregation weights and considers long-range dependencies with the self-attention operations. To avoid the high computational cost of global self-attention, we introduce the concept of local attention into video interpolation and extend it to the spatial-temporal domain. Furthermore, we propose a space-time separation strategy to save memory usage, which also improves performance. In addition, we develop a multi-scale frame synthesis scheme to fully realize the potential of Transformers. Extensive experiments demonstrate the proposed model performs favorably against the state-of-the-art methods both quantitatively and qualitatively on a variety of benchmark datasets.
updated: Sat Nov 27 2021 05:35:10 GMT+0000 (UTC)
published: Sat Nov 27 2021 05:35:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト