3Dの人間のポーズシーケンスの予測または生成に関するこれまでの研究では、関節の回転または関節の位置が回帰されます。前者の戦略では、運動学的連鎖に沿った誤差の蓄積が起こりやすく、パラメーター化としてオイラー角または指数マップを使用する場合に不連続性が生じます。後者では、骨の伸張と無効な構成を回避するために、スケルトン制約に再投影する必要があります。この作業は両方の制限に対処します。 QuaterNetは四元数で回転を表し、損失関数はスケルトンで順運動学を実行して、角度誤差ではなく絶対位置誤差をペナルティにします。反復アーキテクチャと畳み込みアーキテクチャの両方を調査し、短期予測と長期生成について評価します。後者の場合、我々のアプローチは、グラフィックスの文献からの最近のニューラル戦略と同様に、定性的に現実的と判断されています。私たちの実験では、四元数をオイラー角および指数マップと比較し、信頼できる将来の予測を行うために非常に短いコンテキストのみが必要であることを示しています。最後に、Human3.6Mの標準評価プロトコルが高い分散結果を生成することを示し、簡単な解決策を提案します。
Previous work on predicting or generating 3D human pose sequences regresses either joint rotations or joint positions. The former strategy is prone to error accumulation along the kinematic chain, as well as discontinuities when using Euler angles or exponential maps as parameterizations. The latter requires re-projection onto skeleton constraints to avoid bone stretching and invalid configurations. This work addresses both limitations. QuaterNet represents rotations with quaternions and our loss function performs forward kinematics on a skeleton to penalize absolute position errors instead of angle errors. We investigate both recurrent and convolutional architectures and evaluate on short-term prediction and long-term generation. For the latter, our approach is qualitatively judged as realistic as recent neural strategies from the graphics literature. Our experiments compare quaternions to Euler angles as well as exponential maps and show that only a very short context is required to make reliable future predictions. Finally, we show that the standard evaluation protocol for Human3.6M produces high variance results and we propose a simple solution.