arXiv reaDer
CLIP-ReIdent: プレイヤー再識別のための対照トレーニング
CLIP-ReIdent: Contrastive Training for Player Re-Identification
スポーツ分析は、機械学習の最近の進歩の恩恵を受けており、チームや個人に競争上の優位性を提供しています。このコンテキストで重要なタスクの 1 つは、個々のプレーヤーのパフォーマンスを測定して、その後の分析のためにレポートとログ ファイルを提供することです。バスケットボールのようなスポーツ イベントでは、試合中に複数のカメラの視点から、または異なる時間に 1 つのカメラの視点から、選手を再識別する必要があります。この作業では、事前トレーニング済みの CLIP モデルの優れたゼロ ショット パフォーマンスをプレーヤーの再識別の領域に移すことができるかどうかを調査します。この目的のために、トレーニング目標として InfoNCE 損失を使用して、対照的な言語から画像への事前トレーニング アプローチを、CLIP から対照的な画像から画像へのトレーニング アプローチに再定式化します。以前の研究とは異なり、私たちのアプローチは完全にクラスにとらわれず、大規模な事前トレーニングの恩恵を受けます。微調整された CLIP ViT-L/14 モデルにより、MMSports 2022 Player Re-Identification チャレンジで 98.44 % mAP を達成しました。さらに、CLIP Vision Transformers には強力な OCR 機能が既に備わっており、データセットを微調整することなく、シャツ番号などの有用なプレーヤーの特徴をゼロショットで識別できることを示しています。 Score-CAM アルゴリズムを適用することで、プレーヤーの 2 つの画像間の類似性スコアを計算するときに、微調整されたモデルが識別する最も重要な画像領域を視覚化します。
Sports analytics benefits from recent advances in machine learning providing a competitive advantage for teams or individuals. One important task in this context is the performance measurement of individual players to provide reports and log files for subsequent analysis. During sport events like basketball, this involves the re-identification of players during a match either from multiple camera viewpoints or from a single camera viewpoint at different times. In this work, we investigate whether it is possible to transfer the out-standing zero-shot performance of pre-trained CLIP models to the domain of player re-identification. For this purpose we reformulate the contrastive language-to-image pre-training approach from CLIP to a contrastive image-to-image training approach using the InfoNCE loss as training objective. Unlike previous work, our approach is entirely class-agnostic and benefits from large-scale pre-training. With a fine-tuned CLIP ViT-L/14 model we achieve 98.44 % mAP on the MMSports 2022 Player Re-Identification challenge. Furthermore we show that the CLIP Vision Transformers have already strong OCR capabilities to identify useful player features like shirt numbers in a zero-shot manner without any fine-tuning on the dataset. By applying the Score-CAM algorithm we visualise the most important image regions that our fine-tuned model identifies when calculating the similarity score between two images of a player.
updated: Tue Mar 21 2023 13:55:27 GMT+0000 (UTC)
published: Tue Mar 21 2023 13:55:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト