Taylor Swift: Taylor Driven Temporal Modeling for Swift Future Frame Prediction
リカレントニューラルネットワーク(RNN)は、将来のビデオフレーム予測で優れた機能を発揮しますが、離散時間空間でダイナミクスをモデル化し、目的の将来の時間ステップに到達するまですべてのフレームを順次通過します。したがって、RNNは、将来のフレーム数が増えるにつれてエラーを累積する傾向があります。対照的に、偏微分方程式(PDE)は、連続時間空間のダイナミクスなどの物理現象をモデル化しますが、現在のPDEベースのアプローチでは、フォワードオイラー法などを使用してPDEを離散化します。したがって、この作業では、テイラー級数を使用した連続関数によってビデオの動きを近似することを提案します。この目的のために、特定の入力ビデオのテイラー級数の高次項を推定することを学習する新しい畳み込みニューラルネットワークであるTayloSwiftNetを紹介します。 TayloSwiftNetは、1回のフォワードパスで希望する将来のフレームを迅速に予測し、オンザフライで時間分解能を変更できます。さまざまなデータセットでの実験結果は、モデルの優位性を示しています。
While recurrent neural networks (RNNs) demonstrate outstanding capabilities in future video frame prediction, they model dynamics in a discrete time space and sequentially go through all frames until the desired future temporal step is reached. RNNs are therefore prone to accumulate the error as the number of future frames increases. In contrast, partial differential equations (PDEs) model physical phenomena like dynamics in continuous time space, however, current PDE-based approaches discretize the PDEs using e.g., the forward Euler method. In this work, we therefore propose to approximate the motion in a video by a continuous function using the Taylor series. To this end, we introduce TayloSwiftNet, a novel convolutional neural network that learns to estimate the higher order terms of the Taylor series for a given input video. TayloSwiftNet can swiftly predict any desired future frame in just one forward pass and change the temporal resolution on-the-fly. The experimental results on various datasets demonstrate the superiority of our model.
