arXiv reaDer
Seer: 潜在拡散モデルを使用した言語によるビデオ予測
Seer: Language Instructed Video Prediction with Latent Diffusion Models
将来の軌道を想像することは、ロボットが適切な計画を立てて目標を達成するための鍵です。したがって、テキスト条件付きビデオ予測 (TVP) は、一般的なロボット ポリシーの学習、つまり、特定の言語命令と参照フレームを使用して将来のビデオ フレームを予測するために不可欠なタスクです。命令と高忠実度フレームによって指定されたタスク レベルの目標を一緒に設定することは、非常に困難な作業であり、大規模なデータと計算が必要です。このタスクに取り組み、未来を予測する能力を備えたロボットを強化するために、時間軸に沿って事前トレーニング済みのテキストから画像への (T2I) 安定拡散モデルを膨張させることにより、Seer という名前のサンプルと計算効率の高いモデルを提案します。ノイズ除去 U-Net と言語条件付けモデルを 2 つの新しい手法、自己回帰時空間アテンションとフレーム シーケンシャル テキスト デコンポーザーで拡張し、事前トレーニング済みの T2I モデルの豊富な事前知識をフレーム全体に伝播します。適切に設計されたアーキテクチャにより、Seer は、少量のデータでいくつかのレイヤーを微調整することにより、忠実度が高く、一貫性があり、命令に合わせたビデオ フレームを生成することを可能にします。サムシング サムシング V2 (SSv2) と Bridgedata データセットの実験結果は、4 つの RTX 3090 GPU で約 210 時間のトレーニングを行った場合の優れたビデオ予測パフォーマンスを示しています。現在の SOTA モデルの FVD を SSv2 で 290 から 200 に減らし、少なくとも 70 を達成しています。人間の評価における%の好み。
Imagining the future trajectory is the key for robots to make sound planning and successfully reach their goals. Therefore, text-conditioned video prediction (TVP) is an essential task to facilitate general robot policy learning, i.e., predicting future video frames with a given language instruction and reference frames. It is a highly challenging task to ground task-level goals specified by instructions and high-fidelity frames together, requiring large-scale data and computation. To tackle this task and empower robots with the ability to foresee the future, we propose a sample and computation-efficient model, named Seer, by inflating the pretrained text-to-image (T2I) stable diffusion models along the temporal axis. We inflate the denoising U-Net and language conditioning model with two novel techniques, Autoregressive Spatial-Temporal Attention and Frame Sequential Text Decomposer, to propagate the rich prior knowledge in the pretrained T2I models across the frames. With the well-designed architecture, Seer makes it possible to generate high-fidelity, coherent, and instruction-aligned video frames by fine-tuning a few layers on a small amount of data. The experimental results on Something Something V2 (SSv2) and Bridgedata datasets demonstrate our superior video prediction performance with around 210-hour training on 4 RTX 3090 GPUs: decreasing the FVD of the current SOTA model from 290 to 200 on SSv2 and achieving at least 70% preference in the human evaluation.
updated: Mon Mar 27 2023 03:12:24 GMT+0000 (UTC)
published: Mon Mar 27 2023 03:12:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト