時空間アクションの検出は、ビデオの理解において重要で挑戦的な問題です。既存のアクション検出ベンチマークは、トリミングされたビデオ内の少数のインスタンスまたは比較的低レベルのアトミックアクションの側面で制限されています。このペーパーは、MultiSportsとして造られた、時空間的にローカライズされたスポーツアクションの新しい複数人のデータセットを提示することを目的としています。最初に、(1)動きに依存する識別、(2)明確に定義された境界、(3)比較的高レベルのクラスの3つの基準を提案することにより、時空間アクション検出のための現実的でやりがいのあるデータセットを構築する重要な要素を分析します。これらのガイドラインに基づいて、4つのスポーツクラスを選択し、約3200のビデオクリップを収集し、約37790のアクションインスタンスに907kの境界ボックスで注釈を付けることにより、Multi-Sportsv1.0のデータセットを構築します。私たちのデータセットは、強力な多様性、詳細な注釈、および高品質という重要な特性を特徴としています。リアルな設定と高密度のアノテーションを備えたMultiSportsは、アクションローカリゼーションの本質的な課題を明らかにします。これをベンチマークするために、いくつかの代表的な方法をデータセットに適合させ、データセット内のアクションのローカリゼーションの難しさについて詳細な分析を行います。 MultiSportsが、将来、時空間アクション検出の標準ベンチマークとして機能することを願っています。データセットのウェブサイトはhttps://deeperaction.github.io/multisports/です。
Spatio-temporal action detection is an important and challenging problem in video understanding. The existing action detection benchmarks are limited in aspects of small numbers of instances in a trimmed video or relatively low-level atomic actions. This paper aims to present a new multi-person dataset of spatio-temporal localized sports actions, coined as MultiSports. We first analyze the important ingredients of constructing a realistic and challenging dataset for spatio-temporal action detection by proposing three criteria: (1) motion dependent identification, (2) with well-defined boundaries, (3) relatively high-level classes. Based on these guidelines, we build the dataset of Multi-Sports v1.0 by selecting 4 sports classes, collecting around 3200 video clips, and annotating around 37790 action instances with 907k bounding boxes. Our datasets are characterized with important properties of strong diversity, detailed annotation, and high quality. Our MultiSports, with its realistic setting and dense annotations, exposes the intrinsic challenge of action localization. To benchmark this, we adapt several representative methods to our dataset and give an in-depth analysis on the difficulty of action localization in our dataset. We hope our MultiSports can serve as a standard benchmark for spatio-temporal action detection in the future. Our dataset website is at https://deeperaction.github.io/multisports/.