ニューラル ネットワークの出現は、モーション合成の分野に革命をもたらしました。しかし、特定の分布から無条件にモーションを合成する方法を学習することは、特にモーションが非常に多様な場合は依然として困難です。この作業では、非常に多様で、構造化されておらず、ラベル付けされていないデータセットから、教師なしの設定でトレーニングされた生成モデルである MoDi を紹介します。推論中、MoDi は高品質で多様なモーションを合成できます。データセットに構造がまったくないにもかかわらず、私たちのモデルは、セマンティック編集や群集シミュレーションなどのさまざまなアプリケーションを容易にする強力なモーション プライアを構成し、セマンティックにクラスター化できる、適切に動作し、高度に構造化された潜在空間を生成します。さらに、実際のモーションを MoDi の自然なモーション マニホールドに変換するエンコーダーを提示し、プレフィックスや空間編集からの補完など、さまざまな不適切な課題に対するソリューションを発行します。私たちの定性的および定量的実験は、最近の SOTA 技術よりも優れた最先端の結果を達成します。コードとトレーニング済みモデルは、https://sigal-raab.github.io/MoDi で入手できます。
The emergence of neural networks has revolutionized the field of motion synthesis. Yet, learning to unconditionally synthesize motions from a given distribution remains challenging, especially when the motions are highly diverse. In this work, we present MoDi -- a generative model trained in an unsupervised setting from an extremely diverse, unstructured and unlabeled dataset. During inference, MoDi can synthesize high-quality, diverse motions. Despite the lack of any structure in the dataset, our model yields a well-behaved and highly structured latent space, which can be semantically clustered, constituting a strong motion prior that facilitates various applications including semantic editing and crowd simulation. In addition, we present an encoder that inverts real motions into MoDi's natural motion manifold, issuing solutions to various ill-posed challenges such as completion from prefix and spatial editing. Our qualitative and quantitative experiments achieve state-of-the-art results that outperform recent SOTA techniques. Code and trained models are available at https://sigal-raab.github.io/MoDi.