この作品は、チームスポーツの放送ビデオでの選手の再識別に焦点を当てています。具体的には、試合の任意の瞬間に異なるカメラの視点からキャプチャされた画像で同じプレーヤーを識別することに焦点を当てています。このタスクは、いくつかの重要な点で、personre-idの従来のアプリケーションとは異なります。第一に、同じチームの選手は非常によく似た服を着ているため、区別がつきにくくなっています。第二に、IDごとにサンプル数が少ないため、re-idシステムのトレーニングが難しくなります。第三に、画像の解像度は非常に低く、大きく変動することがよくあります。これは、重いオクルージョンとプレーヤーの速い動きと組み合わされて、re-idの課題を大幅に増やします。この論文では、シンプルで効果的な階層データサンプリング手順と重心損失関数を提案します。これらを一緒に使用すると、平均平均精度(mAP)が7〜11.5増加し、ランク1(R1)が8.8〜14.9増加します。使用されるネットワークまたはハイパーパラメータの変更。私たちのデータサンプリング手順は、トレーニングとテストの分布の類似性を改善し、それによって埋め込み(または特徴ベクトル)の重心のより良い推定値を作成するのに役立ちます。驚くべきことに、私たちの研究は、私たちのアプリケーションの場合のように、非常に限られたデータの存在下で、ユークリッド距離に基づく単純な重心損失関数が、一般的な三重重心損失関数を大幅に上回っていることを示しています。畳み込みネットワークとビジョントランスフォーマーの両方で同等の改善を示します。私たちのアプローチは、mAPが86.0、R1が81.5のSoccerNet Re-Identification Challenge 2022リーダーボード(テスト分割)でトップランクの方法の1つです。隔離されたチャレンジスプリットでは、84.9のmAPと80.1のR1を達成します。スポーツ関連のアプリケーションのre-idに関する研究は非常に限られており、私たちの研究はこれに関する文献の最初の議論の1つを示しています。
This work focuses on player re-identification in broadcast videos of team sports. Specifically, we focus on identifying the same player in images captured from different camera viewpoints during any given moment of a match. This task differs from traditional applications of person re-id in a few important ways. Firstly, players from the same team wear highly similar clothes, thereby making it harder to tell them apart. Secondly, there are only a few number of samples for each identity, which makes it harder to train a re-id system. Thirdly, the resolutions of the images are often quite low and vary a lot. This combined with heavy occlusions and fast movements of players greatly increase the challenges for re-id. In this paper, we propose a simple but effective hierarchical data sampling procedure and a centroid loss function that, when used together, increase the mean average precision (mAP) by 7 - 11.5 and the rank-1 (R1) by 8.8 - 14.9 without any change in the network or hyper-parameters used. Our data sampling procedure improves the similarity of the training and test distributions, and thereby aids in creating better estimates of the centroids of the embeddings (or feature vectors). Surprisingly, our study shows that in the presence of severely limited data, as is the case for our application, a simple centroid loss function based on euclidean distances significantly outperforms the popular triplet-centroid loss function. We show comparable improvements for both convolutional networks and vision transformers. Our approach is among the top ranked methods in the SoccerNet Re-Identification Challenge 2022 leaderboard (test-split) with a mAP of 86.0 and a R1 of 81.5. On the sequestered challenge split, we achieve an mAP of 84.9 and a R1 of 80.1. Research on re-id for sports-related applications is very limited and our work presents one of the first discussions in the literature on this.