arXiv reaDer
生成事前生成としての人間の動きの拡散
Human Motion Diffusion as a Generative Prior
最近の研究では、テキストからモーションへの変換機能など、人間のモーションを生成するためのノイズ除去拡散モデルの大きな可能性が実証されています。ただし、これらの方法は、注釈付きのモーション データが不足していること、1 人のモーションに焦点を当てていること、および詳細な制御が欠如していることによって制限されます。この論文では、拡散事前分布に基づく 3 つの形式の合成 (逐次合成、並列合成、およびモデル合成) を紹介します。シーケンシャル合成を使用して、長いシーケンスの生成という課題に取り組みます。 DoubleTake を導入します。これは、短いクリップのみに対して事前にトレーニングされた事前学習を使用して、プロンプト間隔のシーケンスとその遷移から構成される長いアニメーションを生成する推論時間メソッドです。並列構成を使用して、2 人生成に向けた有望なステップを示します。 2 つの固定事前分布といくつかの 2 人トレーニングの例から始めて、結果として得られる 2 つのモーション間の相互作用を調整するスリムなコミュニケーション ブロック ComMDM を学習します。最後に、モデル合成を使用して、まず個々の事前学習を行って、特定の関節の所定の動作を実現する動作を完成させます。次に、DiffusionBlending を導入します。DiffusionBlending は、そのようなモデルを効果的にブレンドして、柔軟かつ効率的なきめ細かなジョイントおよび軌道レベルの制御と編集を可能にする補間メカニズムです。既製のモーション拡散モデルを使用して合成方法を評価し、その結果をこれらの特定のタスク用にトレーニングされた専用モデルとさらに比較します。
Recent work has demonstrated the significant potential of denoising diffusion models for generating human motion, including text-to-motion capabilities. However, these methods are restricted by the paucity of annotated motion data, a focus on single-person motions, and a lack of detailed control. In this paper, we introduce three forms of composition based on diffusion priors: sequential, parallel, and model composition. Using sequential composition, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we generate long animations consisting of sequences of prompted intervals and their transitions, using a prior trained only for short clips. Using parallel composition, we show promising steps toward two-person generation. Beginning with two fixed priors as well as a few two-person training examples, we learn a slim communication block, ComMDM, to coordinate interaction between the two resulting motions. Lastly, using model composition, we first train individual priors to complete motions that realize a prescribed motion for a given joint. We then introduce DiffusionBlending, an interpolation mechanism to effectively blend several such models to enable flexible and efficient fine-grained joint and trajectory-level control and editing. We evaluate the composition methods using an off-the-shelf motion diffusion model, and further compare the results to dedicated models trained for these specific tasks.
updated: Thu Aug 17 2023 00:24:41 GMT+0000 (UTC)
published: Thu Mar 02 2023 17:09:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト