arXiv reaDer
潜在空間でのモーション拡散によるコマンドの実行
Executing your Commands via Motion Diffusion in Latent Space
アクションクラスやテキスト記述子などのさまざまな条件付き入力に従って、もっともらしい人間のモーションシーケンスを生成する、挑戦的なタスクである条件付き人間のモーション生成を研究しています。人間の動きは非常に多様であり、自然言語のテキスト記述子などの条件付きモダリティとはまったく異なる分布の特性を持っているため、望ましい条件付きモダリティから人間の動きシーケンスへの確率論的マッピングを学習することは困難です。また、モーション キャプチャ システムからの生のモーション データは、シーケンスが冗長で、ノイズが含まれている可能性があります。生のモーション シーケンスと条件付きモダリティでジョイント分布を直接モデル化すると、大量の計算オーバーヘッドが必要になり、キャプチャされたノイズによってアーティファクトが生じる可能性があります。さまざまな人間のモーション シーケンスのより良い表現を学習するために、最初に強力な Variational AutoEncoder (VAE) を設計し、人間のモーション シーケンスの代表的で低次元の潜在コードに到達します。次に、拡散モデルを使用して生のモーション シーケンスと条件付き入力の間の接続を確立する代わりに、モーション潜在空間で拡散プロセスを実行します。提案されたモーション潜在ベースの拡散モデル (MLD) は、与えられた条件付き入力に準拠した鮮やかなモーション シーケンスを生成し、トレーニング ステージと推論ステージの両方で計算オーバーヘッドを大幅に削減できます。さまざまな人間のモーション生成タスクに関する広範な実験により、MLD は、生のモーション シーケンスに対する以前の拡散モデルよりも 2 桁高速で、広範な人間のモーション生成タスクの中で最先端の方法を大幅に改善することが実証されています。
We study a challenging task, conditional human motion generation, which produces plausible human motion sequences according to various conditional inputs, such as action classes or textual descriptors. Since human motions are highly diverse and have a property of quite different distribution from conditional modalities, such as textual descriptors in natural languages, it is hard to learn a probabilistic mapping from the desired conditional modality to the human motion sequences. Besides, the raw motion data from the motion capture system might be redundant in sequences and contain noises; directly modeling the joint distribution over the raw motion sequences and conditional modalities would need a heavy computational overhead and might result in artifacts introduced by the captured noises. To learn a better representation of the various human motion sequences, we first design a powerful Variational AutoEncoder (VAE) and arrive at a representative and low-dimensional latent code for a human motion sequence. Then, instead of using a diffusion model to establish the connections between the raw motion sequences and the conditional inputs, we perform a diffusion process on the motion latent space. Our proposed Motion Latent-based Diffusion model (MLD) could produce vivid motion sequences conforming to the given conditional inputs and substantially reduce the computational overhead in both the training and inference stages. Extensive experiments on various human motion generation tasks demonstrate that our MLD achieves significant improvements over the state-of-the-art methods among extensive human motion generation tasks, with two orders of magnitude faster than previous diffusion models on raw motion sequences.
updated: Thu Dec 08 2022 03:07:00 GMT+0000 (UTC)
published: Thu Dec 08 2022 03:07:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト