arXiv reaDer
AdaFNIO: ビデオ フレーム補間のための適応フーリエ ニューラル補間演算子
AdaFNIO: Adaptive Fourier Neural Interpolation Operator for video frame interpolation
ビデオ フレーム補間を実行するためのニューラル オペレータ ベースのアーキテクチャである AdaFNIO - Adaptive Fourier Neural Interpolation Operator を紹介します。現在の深層学習ベースの方法は、特徴学習のためにローカル畳み込みに依存しており、スケール不変ではないという問題があるため、ランダムな反転と再スケーリングによってトレーニング データを拡張する必要があります。一方、AdaFNIO は、高速フーリエ変換 (FFT) を使用して、フーリエ空間またはスペクトル ドメインでのトークン ミキシングとグローバル畳み込みを通じて、入力解像度に関係なく、フレーム内の特徴を学習します。 AdaFNIO が視覚的に滑らかで正確な結果を生成できることを示します。補間されたフレームの視覚的品質を評価するために、生成されたフレームとグラウンド トゥルース フレームの間の構造類似性指数 (SSIM) とピーク信号対雑音比 (PSNR) を計算します。 Vimeo-90K データセット、DAVIS、UCF101、および DISFA+ データセットでモデルの定量的なパフォーマンスを提供します。
We present, AdaFNIO - Adaptive Fourier Neural Interpolation Operator, a neural operator-based architecture to perform video frame interpolation. Current deep learning based methods rely on local convolutions for feature learning and suffer from not being scale-invariant, thus requiring training data to be augmented through random flipping and re-scaling. On the other hand, AdaFNIO, learns the features in the frames, independent of input resolution, through token mixing and global convolution in the Fourier space or the spectral domain by using Fast Fourier Transform (FFT). We show that AdaFNIO can produce visually smooth and accurate results. To evaluate the visual quality of our interpolated frames, we calculate the structural similarity index (SSIM) and Peak Signal to Noise Ratio (PSNR) between the generated frame and the ground truth frame. We provide the quantitative performance of our model on Vimeo-90K dataset, DAVIS, UCF101 and DISFA+ dataset.
updated: Thu Mar 09 2023 00:28:21 GMT+0000 (UTC)
published: Sat Nov 19 2022 20:30:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト