Temporally-Aware Feature Pooling for Action Spotting in Soccer Broadcasts
スポーツ放送の自動制作の目標に向けて、最も重要なタスクは、プレイ中のゲームの高レベルのセマンティック情報を理解することです。たとえば、ゲームの主なアクションを認識してローカライズすることで、プロデューサーは放送制作を適応させて自動化し、ゲームの重要な詳細に焦点を合わせ、観客のエンゲージメントを最大化することができます。この論文では、サッカーゲームの主なアクションを時間的にローカライズすることからなるサッカー放送のアクションスポッティングに焦点を当てて分析します。そのために、時間認識の知識を組み込んだ、NetVLAD ++と呼ばれるNetVLADに基づく新しい機能プーリング方法を提案します。時間的コンテキストをプール元の単一のセットと見なす以前のプーリング方法とは異なり、アクションが発生する前後にコンテキストを分割します。アクションスポット周辺のコンテキスト情報を単一のエンティティと見なすと、プーリングモジュールの学習が最適ではなくなると主張します。 NetVLAD ++を使用すると、過去および将来のフレームからコンテキストを解きほぐし、サブセットごとにセマンティクスの特定の語彙を学習し、そのような語彙を時間内にブレンドしてぼかすことを回避します。このような事前知識を注入すると、より有益なプールモジュールとより識別力のあるプール機能が作成され、アクションの理解が深まります。最近の大規模データセットSoccerNet-v2で方法論をトレーニングおよび評価し、アクションスポッティングの平均mAPが53.4%に達し、現在の最先端技術と比較して+ 12.7%向上しています。
Toward the goal of automatic production for sports broadcasts, a paramount task consists in understanding the high-level semantic information of the game in play. For instance, recognizing and localizing the main actions of the game would allow producers to adapt and automatize the broadcast production, focusing on the important details of the game and maximizing the spectator engagement. In this paper, we focus our analysis on action spotting in soccer broadcast, which consists in temporally localizing the main actions in a soccer game. To that end, we propose a novel feature pooling method based on NetVLAD, dubbed NetVLAD++, that embeds temporally-aware knowledge. Different from previous pooling methods that consider the temporal context as a single set to pool from, we split the context before and after an action occurs. We argue that considering the contextual information around the action spot as a single entity leads to a sub-optimal learning for the pooling module. With NetVLAD++, we disentangle the context from the past and future frames and learn specific vocabularies of semantics for each subsets, avoiding to blend and blur such vocabulary in time. Injecting such prior knowledge creates more informative pooling modules and more discriminative pooled features, leading into a better understanding of the actions. We train and evaluate our methodology on the recent large-scale dataset SoccerNet-v2, reaching 53.4% Average-mAP for action spotting, a +12.7% improvement w.r.t the current state-of-the-art.
updated: Wed Apr 14 2021 11:09:03 GMT+0000 (UTC)
published: Wed Apr 14 2021 11:09:03 GMT+0000 (UTC)
