arXiv reaDer
ビデオ生成のための拡散確率モデリング
Diffusion Probabilistic Modeling for Video Generation
ノイズ除去拡散確率モデルは、高品質の画像生成のマイルストーンをマークする有望な新しいクラスの生成モデルです。このホワイトペーパーでは、知覚的および確率的な予測指標で以前の方法を超えて、ビデオを順次生成する能力を紹介します。ニューラルビデオ圧縮の最近の進歩に触発された、自己回帰のエンドツーエンドで最適化されたビデオ拡散モデルを提案します。モデルは、逆拡散プロセスによって生成された確率的残差を使用して決定論的な次のフレーム予測を修正することにより、将来のフレームを連続的に生成します。このアプローチを、自然およびシミュレーションベースのビデオを含む4つのデータセットの5つのベースラインと比較します。すべてのデータセットの知覚品質に関して、大幅な改善が見られます。さらに、ビデオに適用可能な連続ランク確率スコア(CRPS)のスケーラブルなバージョンを導入することにより、モデルが確率的フレーム予測能力において既存のアプローチよりも優れていることを示します。
Denoising diffusion probabilistic models are a promising new class of generative models that mark a milestone in high-quality image generation. This paper showcases their ability to sequentially generate video, surpassing prior methods in perceptual and probabilistic forecasting metrics. We propose an autoregressive, end-to-end optimized video diffusion model inspired by recent advances in neural video compression. The model successively generates future frames by correcting a deterministic next-frame prediction using a stochastic residual generated by an inverse diffusion process. We compare this approach against five baselines on four datasets involving natural and simulation-based videos. We find significant improvements in terms of perceptual quality for all datasets. Furthermore, by introducing a scalable version of the Continuous Ranked Probability Score (CRPS) applicable to video, we show that our model also outperforms existing approaches in their probabilistic frame forecasting ability.
updated: Thu Dec 08 2022 01:18:55 GMT+0000 (UTC)
published: Wed Mar 16 2022 03:52:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト