ビデオに基づくパフォーマンス分析は、さまざまなスポーツ分野のアスリートのコーチによって一般的に使用されています。個人スポーツでは、これらの分析は主に体の姿勢を含みます。このホワイト ペーパーでは、アスリートの身体の細かい位置を必要とする三段跳び、高跳び、走り幅跳びの分野に焦点を当てています。典型的な人間の姿勢推定データセットは、非常に限られた一連のキーポイントしか提供しないため、この場合は十分ではありません。したがって、注釈付きのキーポイントの限られたセットと身体部分の自動生成されたセグメンテーション マスクを活用して、アスリートの全身の任意のキーポイントを検出する方法を提案します。評価では、私たちのモデルが頭、胴体、手、足、腕、脚のキーポイントを検出できることが示されています。これには、曲がった肘と膝も含まれます。さまざまな手法を分析および比較して、モデルの入力および Transformer バックボーンへの埋め込みとして目的のキーポイントをエンコードします。
Performance analyses based on videos are commonly used by coaches of athletes in various sports disciplines. In individual sports, these analyses mainly comprise the body posture. This paper focuses on the disciplines of triple, high, and long jump, which require fine-grained locations of the athlete's body. Typical human pose estimation datasets provide only a very limited set of keypoints, which is not sufficient in this case. Therefore, we propose a method to detect arbitrary keypoints on the whole body of the athlete by leveraging the limited set of annotated keypoints and auto-generated segmentation masks of body parts. Evaluations show that our model is capable of detecting keypoints on the head, torso, hands, feet, arms, and legs, including also bent elbows and knees. We analyze and compare different techniques to encode desired keypoints as the model's input and their embedding for the Transformer backbone.