arXiv reaDer
ビデオ予測とインフィルの拡散モデル
Diffusion Models for Video Prediction and Infilling
エージェントがインテリジェントな意思決定を行うためには、将来の結果を予測して予想したり、一連の情報の欠落について推論したりすることが重要なスキルです。これには、強力で時間的に一貫した生成能力が必要です。拡散モデルは、いくつかの生成タスクで目覚ましい成功を収めていますが、ビデオ ドメインではあまり調査されていません。 3D畳み込みを使用して画像拡散モデルをビデオに拡張し、トレーニング中に新しい調整手法を導入するRandom-Mask Video Diffusion (RaMViD) を紹介します。条件となるマスクを変更することで、モデルはビデオ予測、インフィル、およびアップサンプリングを実行できます。シンプルな条件付けスキームにより、無条件トレーニングに使用されるものと同じアーキテクチャを利用できます。これにより、モデルを条件付きおよび無条件で同時にトレーニングできます。最先端の結果を達成するビデオ予測用の 2 つのベンチマーク データセットと、ビデオ生成用の 1 つのベンチマーク データセットで RaMViD を評価します。高解像度のビデオは、https://sites.google.com/view/video-diffusion-prediction で提供されています。
Predicting and anticipating future outcomes or reasoning about missing information in a sequence are critical skills for agents to be able to make intelligent decisions. This requires strong, temporally coherent generative capabilities. Diffusion models have shown remarkable success in several generative tasks, but have not been extensively explored in the video domain. We present Random-Mask Video Diffusion (RaMViD), which extends image diffusion models to videos using 3D convolutions, and introduces a new conditioning technique during training. By varying the mask we condition on, the model is able to perform video prediction, infilling, and upsampling. Due to our simple conditioning scheme, we can utilize the same architecture as used for unconditional training, which allows us to train the model in a conditional and unconditional fashion at the same time. We evaluate RaMViD on two benchmark datasets for video prediction, on which we achieve state-of-the-art results, and one for video generation. High-resolution videos are provided at https://sites.google.com/view/video-diffusion-prediction.
updated: Mon Nov 14 2022 08:38:19 GMT+0000 (UTC)
published: Wed Jun 15 2022 17:44:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト