スポーツのパフォーマンスを分析したり、怪我を防止したりするには、特定の動きの間に人体が及ぼす床反力(GRF)をキャプチャする必要があります。標準的な方法では、制御された環境でフォースプレートと組み合わせた物理マーカーを使用しますが、これは、コストが高く、実装に時間がかかり、繰り返しの実験が異なるために損なわれます。したがって、ビデオからのGRF推論を提案します。最近の研究では、LSTMを使用して2Dの観点からGRFを推定していますが、これらはモデリングと表現の能力に制限がある可能性があります。まず、トランスアーキテクチャを使用してビデオタスクからGRFに取り組むことを提案します。これは、最初に行うことです。次に、新しい損失を導入して、回帰曲線の影響の大きいピークを最小限に抑えます。また、2Dから3Dへの人間の姿勢推定に関する事前トレーニングとマルチタスク学習により、目に見えない動きへの一般化が改善されることも示しています。また、このさまざまなタスクの事前トレーニングにより、小さい(より少ない)GRFデータセットを微調整するときに適切な初期の重みが提供されます。 LAASパルクールと新しく収集されたForcePoseデータセットを評価します。以前のアプローチと比較して、エラーが最大19%減少しました。
Analyzing sports performance or preventing injuries requires capturing ground reaction forces (GRFs) exerted by the human body during certain movements. Standard practice uses physical markers paired with force plates in a controlled environment, but this is marred by high costs, lengthy implementation time, and variance in repeat experiments; hence, we propose GRF inference from video. While recent work has used LSTMs to estimate GRFs from 2D viewpoints, these can be limited in their modeling and representation capacity. First, we propose using a transformer architecture to tackle the GRF from video task, being the first to do so. Then we introduce a new loss to minimize high impact peaks in regressed curves. We also show that pre-training and multi-task learning on 2D-to-3D human pose estimation improves generalization to unseen motions. And pre-training on this different task provides good initial weights when finetuning on smaller (rarer) GRF datasets. We evaluate on LAAS Parkour and a newly collected ForcePose dataset; we show up to 19% decrease in error compared to prior approaches.