arXiv reaDer
MS-LSTM: ビデオ予測ドメインにおける時空間マルチスケール表現の探索
MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video Prediction Domain
空間的および時間的次元における動きの劇的な変化により、ビデオ予測タスクは非常に困難になります。既存の RNN モデルは、モデルを深くしたり広げたりすることで、より高いパフォーマンスを得ることができます。レイヤーを積み重ねるだけでビデオのマルチスケール機能を取得しますが、これは非効率的であり、耐え難いトレーニング コスト (メモリ、FLOP、トレーニング時間など) をもたらします。それらとは異なり、本論文では、マルチスケールの観点から完全にMS-LSTMと呼ばれる時空間マルチスケールモデルを提案します。積層されたレイヤーに基づいて、MS-LSTM は 2 つの追加の効率的なマルチスケール デザインを組み込み、時空間コンテキスト情報を完全にキャプチャします。具体的には、ミラー化されたピラミッド構造を持つ LSTM を使用して空間マルチスケール表現を構築し、異なる畳み込みカーネルを使用して LSTM を使用して時間マルチスケール表現を構築します。 4 つのビデオ データセットで 8 つのベースライン モデルを使用した詳細な比較実験では、MS-LSTM の方がパフォーマンスは優れていますが、トレーニング コストは低いことが示されています。
The drastic variation of motion in spatial and temporal dimensions makes the video prediction task extremely challenging. Existing RNN models obtain higher performance by deepening or widening the model. They obtain the multi-scale features of the video only by stacking layers, which is inefficient and brings unbearable training costs (such as memory, FLOPs, and training time). Different from them, this paper proposes a spatiotemporal multi-scale model called MS-LSTM wholly from a multi-scale perspective. On the basis of stacked layers, MS-LSTM incorporates two additional efficient multi-scale designs to fully capture spatiotemporal context information. Concretely, we employ LSTMs with mirrored pyramid structures to construct spatial multi-scale representations and LSTMs with different convolution kernels to construct temporal multi-scale representations. Detailed comparison experiments with eight baseline models on four video datasets show that MS-LSTM has better performance but lower training costs.
updated: Sat Apr 22 2023 05:38:45 GMT+0000 (UTC)
published: Sun Apr 16 2023 08:25:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト