arXiv reaDer
複数のカメラのビデオを使用したイベントの視覚化の実行
Running Event Visualization using Videos from Multiple Cameras
  レースのさまざまなポイントで収集されたビデオで複数のランナーの軌跡を視覚化することは、スポーツパフォーマンスの分析に役立つ可能性があります。ビデオと軌跡は、アスリートの健康モニタリングにも役立ちます。ランナーの一意のIDと外観は異なりますが、ビデオデータには各ビデオにどのランナーが表示されるかに関する明確な情報が含まれていないため、タスクは簡単ではありません。選手を追跡する際にモデルを直接監督することはなく、無関係な検出を削除するためのフィルタリング手順のみがあります。懸念されるその他の要因には、ランナーの閉塞と厳しい照明が含まれます。この目的のために、イベントの異なるポイントでランナーを特定し、その軌跡を決定するための2つの方法を特定します。 1つは、服に付けられた一意の「よだれかけ番号」を検出することでランナーを認識するシーンテキスト検出であり、もう1つは、外観に基づいてランナーを検出する人物の再識別です。グラウンドトゥルースなしでメソッドをトレーニングしますが、提案されたメソッドを評価するために、ランナーが登場するビデオとフレーム間隔情報で構成されるグラウンドトゥルースデータベースを作成します。データセットのビデオは、マラソンイベント中に異なる場所にある9台のカメラで記録されました。このデータには、各ビデオに登場するランナーのよだれかけ番号が注釈として付けられています。フレーム内で発生することがわかっているランナーのよだれかけ番号は、検出された無関係なテキストと数字をフィルタリングするために使用されます。このフィルタリング手順を除き、監視信号は使用されません。実験的証拠は、シーンのテキスト認識方法が74のF1スコアを達成することを示しています。特定されたインライアーを使用して個人再識別モデルを再トレーニングすると、パフォーマンスがわずかに改善されます(F1スコア87.8)。
Visualizing the trajectory of multiple runners with videos collected at different points in a race could be useful for sports performance analysis. The videos and the trajectories can also aid in athlete health monitoring. While the runners unique ID and their appearance are distinct, the task is not straightforward because the video data does not contain explicit information as to which runners appear in each of the videos. There is no direct supervision of the model in tracking athletes, only filtering steps to remove irrelevant detections. Other factors of concern include occlusion of runners and harsh illumination. To this end, we identify two methods for runner identification at different points of the event, for determining their trajectory. One is scene text detection which recognizes the runners by detecting a unique 'bib number' attached to their clothes and the other is person re-identification which detects the runners based on their appearance. We train our method without ground truth but to evaluate the proposed methods, we create a ground truth database which consists of video and frame interval information where the runners appear. The videos in the dataset was recorded by nine cameras at different locations during the a marathon event. This data is annotated with bib numbers of runners appearing in each video. The bib numbers of runners known to occur in the frame are used to filter irrelevant text and numbers detected. Except for this filtering step, no supervisory signal is used. The experimental evidence shows that the scene text recognition method achieves an F1-score of 74. Combining the two methods, that is - using samples collected by text spotter to train the re-identification model yields a higher F1-score of 85.8. Re-training the person re-identification model with identified inliers yields a slight improvement in performance(F1 score of 87.8).
updated: Fri Sep 06 2019 11:51:59 GMT+0000 (UTC)
published: Fri Sep 06 2019 11:51:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト