arXiv reaDer
ビデオフレーム補間のための効率的な畳み込みとトランスベースのネットワーク
Efficient Convolution and Transformer-Based Network for Video Frame Interpolation
ビデオ フレーム補間は、ビデオ コーディング、放送、制作分野におけるいくつかの重要な産業用途において、ますます重要な研究課題となっています。最近、変圧器が現場に導入され、性能が大幅に向上しました。ただし、これにはメモリ使用量、トレーニング時間、推論時間が大幅に増加するという代償が伴います。この論文では、トランスエンコーダと畳み込み特徴を統合した新しい方法を提案します。このネットワークは、既存のトランスフォーマーベースの内挿方法と比較して、メモリの負担を 50% 近く削減し、推論時間中に最大 4 倍高速に実行します。ローカル相関をモデル化する際の畳み込みの強度と、長距離依存関係のトランスフォーマーの強度を組み合わせたデュアル エンコーダー アーキテクチャが導入されています。提案手法の堅牢性を実証するために、複雑な動きを伴うさまざまなベンチマークで定量的評価が実行され、最先端の内挿ネットワークと比較して競争力のあるパフォーマンスを実現します。
Video frame interpolation is an increasingly important research task with several key industrial applications in the video coding, broadcast and production sectors. Recently, transformers have been introduced to the field resulting in substantial performance gains. However, this comes at a cost of greatly increased memory usage, training and inference time. In this paper, a novel method integrating a transformer encoder and convolutional features is proposed. This network reduces the memory burden by close to 50% and runs up to four times faster during inference time compared to existing transformer-based interpolation methods. A dual-encoder architecture is introduced which combines the strength of convolutions in modelling local correlations with those of the transformer for long-range dependencies. Quantitative evaluations are conducted on various benchmarks with complex motion to showcase the robustness of the proposed method, achieving competitive performance compared to state-of-the-art interpolation networks.
updated: Wed Jul 12 2023 20:14:06 GMT+0000 (UTC)
published: Wed Jul 12 2023 20:14:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト