arXiv reaDer
ビデオフレーム補間のための時空間マルチフローネットワーク
Spatio-Temporal Multi-Flow Network for Video Frame Interpolation
ビデオフレーム補間(VFI)は現在非常に活発な研究トピックであり、アプリケーションはコンピュータービジョン、ポストプロダクション、ビデオエンコーディングにまたがっています。 VFIは、特に大きなモーション、オクルージョン、または動的テクスチャを含むシーケンスでは非常に困難な場合があり、既存のアプローチでは知覚的に堅牢な補間パフォーマンスを提供できません。これに関連して、時空間マルチフローアーキテクチャに基づく新しい深層学習ベースのVFIメソッドであるST-MFNetを紹介します。 ST-MFNetは、新しいマルチスケールマルチフロー予測子を使用して、多対1の中間フローを推定します。これは、従来の1対1のオプティカルフローと組み合わせて、大規模なモーションと複雑なモーションの両方をキャプチャします。さまざまなテクスチャの補間パフォーマンスを向上させるために、3D CNNを使用して、拡張された時間ウィンドウでコンテンツのダイナミクスをモデル化します。さらに、ST-MFNetは、知覚補間の品質をさらに向上させることを目的として、元々テクスチャ合成用に開発されたST-GANフレームワーク内でトレーニングされています。私たちのアプローチは、14の最先端のVFIアルゴリズムと比較して包括的に評価されており、ST-MFNetがさまざまな代表的なテストデータセットでこれらのベンチマークを一貫して上回っており、ケースのPSNRが最大1.09dB大幅に向上していることを明確に示しています。大きな動きとダイナミックなテクスチャを含みます。プロジェクトページ:https://danielism97.github.io/ST-MFNet。
Video frame interpolation (VFI) is currently a very active research topic, with applications spanning computer vision, post production and video encoding. VFI can be extremely challenging, particularly in sequences containing large motions, occlusions or dynamic textures, where existing approaches fail to offer perceptually robust interpolation performance. In this context, we present a novel deep learning based VFI method, ST-MFNet, based on a Spatio-Temporal Multi-Flow architecture. ST-MFNet employs a new multi-scale multi-flow predictor to estimate many-to-one intermediate flows, which are combined with conventional one-to-one optical flows to capture both large and complex motions. In order to enhance interpolation performance for various textures, a 3D CNN is also employed to model the content dynamics over an extended temporal window. Moreover, ST-MFNet has been trained within an ST-GAN framework, which was originally developed for texture synthesis, with the aim of further improving perceptual interpolation quality. Our approach has been comprehensively evaluated -- compared with fourteen state-of-the-art VFI algorithms -- clearly demonstrating that ST-MFNet consistently outperforms these benchmarks on varied and representative test datasets, with significant gains up to 1.09dB in PSNR for cases including large motions and dynamic textures. Project page: https://danielism97.github.io/ST-MFNet.
updated: Tue Nov 30 2021 15:18:46 GMT+0000 (UTC)
published: Tue Nov 30 2021 15:18:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト