FineAction: A Fine-Grained Video Dataset for Temporal Action Localization
時間的アクションローカリゼーション(TAL)は、ビデオの理解において重要で挑戦的な問題です。ただし、ほとんどの既存のTALベンチマークは、アクションクラスの粗い粒度に基づいて構築されており、このタスクには2つの大きな制限があります。まず、粗いレベルのアクションは、ローカリゼーションモデルを高レベルのコンテキスト情報に適合させ、ビデオ内のアトミックアクションの詳細を無視する可能性があります。第2に、粗いアクションクラスは、時間的アクションのローカリゼーションには不適切な、時間的境界のあいまいな注釈につながることがよくあります。これらの問題に取り組むために、時間的アクションのローカリゼーションのために、FineActionと呼ばれる新しい大規模できめの細かいビデオデータセットを開発します。合計で、FineActionには106のアクションカテゴリの103Kの一時的なインスタンスが含まれ、17Kのトリミングされていないビデオで注釈が付けられています。 FineActionは、豊富な多様性、複数のインスタンスの高密度アノテーション、および異なるクラスの同時発生アクションを備えたファインアクションクラスの明確な特性のおかげで、一時的なアクションのローカリゼーションに新しい機会と課題をもたらします。 FineActionのベンチマークを行うために、いくつかの一般的な時間的ローカリゼーション手法のパフォーマンスを体系的に調査し、時間的アクションのローカリゼーションにおける短期間のインスタンスときめ細かいインスタンスの影響を詳細に分析します。 FineActionは、時間的アクションのローカリゼーションおよびそれ以降の研究を進めることができると信じています。
Temporal action localization (TAL) is an important and challenging problem in video understanding. However, most existing TAL benchmarks are built upon the coarse granularity of action classes, which exhibits two major limitations in this task. First, coarse-level actions can make the localization models overfit in high-level context information, and ignore the atomic action details in the video. Second, the coarse action classes often lead to the ambiguous annotations of temporal boundaries, which are inappropriate for temporal action localization. To tackle these problems, we develop a novel large-scale and fine-grained video dataset, coined as FineAction, for temporal action localization. In total, FineAction contains 103K temporal instances of 106 action categories, annotated in 17K untrimmed videos. FineAction introduces new opportunities and challenges for temporal action localization, thanks to its distinct characteristics of fine action classes with rich diversity, dense annotations of multiple instances, and co-occurring actions of different classes. To benchmark FineAction, we systematically investigate the performance of several popular temporal localization methods on it, and deeply analyze the influence of short-duration and fine-grained instances in temporal action localization. We believe that FineAction can advance research of temporal action localization and beyond.
