arXiv reaDer
STIP:高解像度ビデオ予測のための時空間情報保存および知覚拡張モデル
STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction
リカレントニューラルネットワーク(RNN)ベースのビデオ予測手法によって大きな成果が達成されましたが、情報損失の問題と知覚に影響されない平均二乗誤差(MSE)ベースの損失関数のため、高解像度のデータセットでのパフォーマンスはまだ満足のいくものではありません。 。本論文では、上記の2つの問題を解決するために、時空間情報保存および知覚拡張モデル(STIP)を提案します。情報損失の問題を解決するために、提案されたモデルは、特徴抽出と状態遷移のそれぞれの間にビデオの時空間情報を保存することを目的としています。まず、マルチグレイン時空間オートエンコーダ(MGST-AE)は、X-Net構造に基づいて設計されています。提案されたMGST-AEは、デコーダーが時間ドメインと空間ドメインの両方でエンコーダーからマルチグレイン情報をリコールするのに役立ちます。このようにして、高解像度ビデオの特徴抽出中に、より多くの時空間情報を保存できます。次に、時空間ゲート付き回帰ユニット(STGRU)は、標準のゲート付き回帰ユニット(GRU)構造に基づいて設計されており、状態遷移中に時空間情報を効率的に保存できます。提案されたSTGRUは、一般的なLong Short-Term(LSTM)ベースの予測メモリと比較して、はるかに低い計算負荷でより満足のいくパフォーマンスを実現できます。さらに、従来のMSE損失関数を改善するために、学習された知覚損失(LP損失)が生成的敵対的ネットワーク(GAN)に基づいてさらに設計され、客観的品質と知覚的品質の間の十分なトレードオフを得るのに役立ちます。実験結果は、提案されたSTIPが、さまざまな最先端の方法と比較して、より満足のいく視覚品質でビデオを予測できることを示しています。ソースコードはhttps://github.com/ZhengChang467/STIPHRで入手できます。
Although significant achievements have been achieved by recurrent neural network (RNN) based video prediction methods, their performance in datasets with high resolutions is still far from satisfactory because of the information loss problem and the perception-insensitive mean square error (MSE) based loss functions. In this paper, we propose a Spatiotemporal Information-Preserving and Perception-Augmented Model (STIP) to solve the above two problems. To solve the information loss problem, the proposed model aims to preserve the spatiotemporal information for videos during the feature extraction and the state transitions, respectively. Firstly, a Multi-Grained Spatiotemporal Auto-Encoder (MGST-AE) is designed based on the X-Net structure. The proposed MGST-AE can help the decoders recall multi-grained information from the encoders in both the temporal and spatial domains. In this way, more spatiotemporal information can be preserved during the feature extraction for high-resolution videos. Secondly, a Spatiotemporal Gated Recurrent Unit (STGRU) is designed based on the standard Gated Recurrent Unit (GRU) structure, which can efficiently preserve spatiotemporal information during the state transitions. The proposed STGRU can achieve more satisfactory performance with a much lower computation load compared with the popular Long Short-Term (LSTM) based predictive memories. Furthermore, to improve the traditional MSE loss functions, a Learned Perceptual Loss (LP-loss) is further designed based on the Generative Adversarial Networks (GANs), which can help obtain a satisfactory trade-off between the objective quality and the perceptual quality. Experimental results show that the proposed STIP can predict videos with more satisfactory visual quality compared with a variety of state-of-the-art methods. Source code has been available at https://github.com/ZhengChang467/STIPHR.
updated: Thu Jun 09 2022 09:49:04 GMT+0000 (UTC)
published: Thu Jun 09 2022 09:49:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト