モーションの模倣は、物理ベースのキャラクター アニメーションの基本的なタスクです。ただし、ほとんどの既存のモーション模倣方法は、強化学習 (RL) に基づいて構築されており、重い報酬エンジニアリング、高い分散、およびハードな探索による収束の遅さに悩まされています。具体的には、通常、単純なモーション シーケンスを模倣するのに数十時間または数日かかるトレーニングが必要であり、その結果、スケーラビリティが低下します。この作業では、微分可能な物理シミュレーター (DPS) を活用し、DiffMimic と呼ばれる効率的なモーション模倣方法を提案します。私たちの重要な洞察は、DPS が複雑なポリシー学習タスクをはるかに単純な状態マッチング問題にキャストすることです。特に、DPS は、グラウンド トゥルースの物理事前確率を使用した分析勾配によって安定したポリシーを学習するため、RL ベースの方法よりも大幅に高速で安定した収束につながります。さらに、ローカル最適から逃れるために、デモンストレーション リプレイ メカニズムを利用して、長い期間で安定した勾配バックプロパゲーションを可能にします。標準的なベンチマークでの広範な実験により、DiffMimic は既存の方法 (DeepMimic など) よりもサンプル効率と時間効率が優れていることが示されています。特に、DiffMimic を使用すると、物理的にシミュレートされたキャラクターが 10 分間のトレーニング後にバックフリップを学習し、3 時間のトレーニング後にそれを循環できるようになりますが、既存のアプローチでは、バックフリップを循環させるために約 1 日のトレーニングが必要になる場合があります。さらに重要なことは、DiffMimic が、将来の研究で微分可能な衣服シミュレーションなどの技術を使用して、より微分可能なアニメーション システムに役立つことを願っています。
Motion mimicking is a foundational task in physics-based character animation. However, most existing motion mimicking methods are built upon reinforcement learning (RL) and suffer from heavy reward engineering, high variance, and slow convergence with hard explorations. Specifically, they usually take tens of hours or even days of training to mimic a simple motion sequence, resulting in poor scalability. In this work, we leverage differentiable physics simulators (DPS) and propose an efficient motion mimicking method dubbed DiffMimic. Our key insight is that DPS casts a complex policy learning task to a much simpler state matching problem. In particular, DPS learns a stable policy by analytical gradients with ground-truth physical priors hence leading to significantly faster and stabler convergence than RL-based methods. Moreover, to escape from local optima, we utilize a Demonstration Replay mechanism to enable stable gradient backpropagation in a long horizon. Extensive experiments on standard benchmarks show that DiffMimic has a better sample efficiency and time efficiency than existing methods (e.g., DeepMimic). Notably, DiffMimic allows a physically simulated character to learn Backflip after 10 minutes of training and be able to cycle it after 3 hours of training, while the existing approach may require about a day of training to cycle Backflip. More importantly, we hope DiffMimic can benefit more differentiable animation systems with techniques like differentiable clothes simulation in future research.