arXiv reaDer
生成事前確率としての人間の運動拡散
Human Motion Diffusion as a Generative Prior
ここ数か月で、モーション ジェネレーションにノイズ除去拡散モデルが導入されたことで、飛躍的な進歩が見られました。しかし、この分野の主なギャップは依然としてデータの可用性の低さです。さらに、モーションの取得プロセスに費用がかかるため、すでに控えめなデータが短い 1 人の人物のシーケンスに偏ってしまいます。このような不足により、より精巧な生成タスクが取り残されます。このホワイト ペーパーでは、事前にトレーニングされた拡散ベースのモデルを生成事前確率として使用して、このギャップを軽減できることを示します。事前確率が微調整に効果的であることを示し、数回、さらにはゼロショットの方法で行います。ゼロ ショット設定では、長いシーケンス生成の課題に取り組みます。 DoubleTake は、10 秒間の生成でトレーニングされた事前確率を使用して、プロンプト間隔の最大 10 分間の長いアニメーションと、それらの意味のある制御された遷移を示す推論時間メソッドです。少人数の設定では、2 人世代を想定しています。 2 つの固定された事前確率と数十のトレーニング例を使用して、スリムな通信ブロックである ComMDM を学習し、結果として得られる 2 つのモーション間の相互作用を注入します。最後に、微調整を使用して、規定された単一の関節から動作を意味的に完了する前にトレーニングします。次に、DiffusionBlending を使用して、そのようないくつかのモデルを、個々の制御信号の組み合わせに適切に応答する単一のモデルにブレンドし、きめの細かいジョイント レベルおよび軌道レベルの制御と編集を可能にします。既製の最先端 (SOTA) モーション拡散モデルを事前に使用して、前述の 3 つのケースに対するアプローチを評価し、これらのタスク用に設計およびトレーニングされた SOTA モデルよりも一貫して優れていることを示します。
In recent months, we witness a leap forward as denoising diffusion models were introduced to Motion Generation. Yet, the main gap in this field remains the low availability of data. Furthermore, the expensive acquisition process of motion biases the already modest data towards short single-person sequences. With such a shortage, more elaborate generative tasks are left behind. In this paper, we show that this gap can be mitigated using a pre-trained diffusion-based model as a generative prior. We demonstrate the prior is effective for fine-tuning, in a few-, and even a zero-shot manner. For the zero-shot setting, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we demonstrate up to 10-minute long animations of prompted intervals and their meaningful and controlled transition, using the prior that was trained for 10-second generations. For the few-shot setting, we consider two-person generation. Using two fixed priors and as few as a dozen training examples, we learn a slim communication block, ComMDM, to infuse interaction between the two resulting motions. Finally, using fine-tuning, we train the prior to semantically complete motions from a single prescribed joint. Then, we use our DiffusionBlending to blend a few such models into a single one that responds well to the combination of the individual control signals, enabling fine-grained joint- and trajectory-level control and editing. Using an off-the-shelf state-of-the-art (SOTA) motion diffusion model as a prior, we evaluate our approach for the three mentioned cases and show that we consistently outperform SOTA models that were designed and trained for those tasks.
updated: Thu Mar 02 2023 17:09:27 GMT+0000 (UTC)
published: Thu Mar 02 2023 17:09:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト