arXiv reaDer
ビデオ超解像のためのフレーム間時間整合性学習
Temporal Consistency Learning of inter-frames for Video Super-Resolution
ビデオ超解像 (VSR) は、低解像度 (LR) 参照フレームと複数の隣接フレームから高解像度 (HR) フレームを再構築することを目的とするタスクです。重要な操作は、現在のフレーム再構成に相対的にずれているフレームを利用し、結果の一貫性を維持することです。既存の方法では、一般に、VSR のパフォーマンスを向上させるために、情報の伝播とフレームの配置が検討されています。ただし、フレーム間の時間的一貫性に焦点を当てた研究はほとんどありません。この論文では、再構成されたビデオの一貫性を強化するために、エンドツーエンドの方法で VSR の時間的一貫性学習ネットワーク (TCNet) を提案します。時空間安定性モジュールは、フレーム間から自己整列を学習するように設計されています。特に、構造安定性を維持するために、各フレームからの空間依存性を利用するために、相関マッチングが採用されています。さらに、自己注意機構を利用して時間的対応を学習し、マルチフレーム間の時間的一貫性のための適応ワーピング操作を実装します。さらに、ハイブリッド リカレント アーキテクチャは、短期および長期の情報を活用するように設計されています。さらに、時空間機能の多段階融合を実行するプログレッシブ融合モジュールを提示します。そして、最終的に再構成されたフレームは、これらの融合された機能によって洗練されます。さまざまな実験の客観的および主観的な結果は、いくつかの最先端の方法と比較して、TCNet がさまざまなベンチマーク データセットで優れたパフォーマンスを発揮することを示しています。
Video super-resolution (VSR) is a task that aims to reconstruct high-resolution (HR) frames from the low-resolution (LR) reference frame and multiple neighboring frames. The vital operation is to utilize the relative misaligned frames for the current frame reconstruction and preserve the consistency of the results. Existing methods generally explore information propagation and frame alignment to improve the performance of VSR. However, few studies focus on the temporal consistency of inter-frames. In this paper, we propose a Temporal Consistency learning Network (TCNet) for VSR in an end-to-end manner, to enhance the consistency of the reconstructed videos. A spatio-temporal stability module is designed to learn the self-alignment from inter-frames. Especially, the correlative matching is employed to exploit the spatial dependency from each frame to maintain structural stability. Moreover, a self-attention mechanism is utilized to learn the temporal correspondence to implement an adaptive warping operation for temporal consistency among multi-frames. Besides, a hybrid recurrent architecture is designed to leverage short-term and long-term information. We further present a progressive fusion module to perform a multistage fusion of spatio-temporal features. And the final reconstructed frames are refined by these fused features. Objective and subjective results of various experiments demonstrate that TCNet has superior performance on different benchmark datasets, compared to several state-of-the-art methods.
updated: Thu Nov 03 2022 08:23:57 GMT+0000 (UTC)
published: Thu Nov 03 2022 08:23:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト