arXiv reaDer
FineAction: 一時的なアクション ローカリゼーションのためのきめ細かいビデオ データセット
FineAction: A Fine-Grained Video Dataset for Temporal Action Localization
時間アクション ローカリゼーション (TAL) は、ビデオの理解における重要かつ困難な問題です。ただし、ほとんどの既存の TAL ベンチマークは、アクション クラスの粗い粒度に基づいて構築されているため、このタスクには 2 つの大きな制限があります。まず、粗いレベルのアクションは、ローカリゼーション モデルを高レベルのコンテキスト情報に過適合させ、ビデオ内のアトミック アクションの詳細を無視する可能性があります。第 2 に、粗いアクション クラスは、時間境界のあいまいな注釈につながることが多く、時間アクションのローカリゼーションには不適切です。これらの問題に取り組むために、時間的なアクションのローカリゼーションのために、FineAction と呼ばれる新しい大規模できめ細かいビデオ データセットを開発します。合計で、FineAction には 106 のアクション カテゴリの 103K の一時的なインスタンスが含まれており、17K のトリミングされていないビデオに注釈が付けられています。既存の TAL データセットと比較して、当社の FineAction は、豊富な多様性、複数のインスタンスの密な注釈、および異なるクラスの同時発生アクションを備えた細かいアクション クラスの明確な特徴を取り入れており、一時的なアクションのローカリゼーションに新しい機会と課題をもたらします。 FineAction のベンチマークを行うために、いくつかの一般的な時間位置特定方法のパフォーマンスを体系的に調査し、時間アクション位置特定における細粒度インスタンスの影響を深く分析します。マイナーな貢献として、FineAction で 13.17% の mAP を達成する、きめの細かいアクション検出を処理するための単純なベースライン アプローチを提示します。私たちは、FineAction が一時的なアクション ローカリゼーションの研究をさらに前進させることができると信じています。
Temporal action localization (TAL) is an important and challenging problem in video understanding. However, most existing TAL benchmarks are built upon the coarse granularity of action classes, which exhibits two major limitations in this task. First, coarse-level actions can make the localization models overfit in high-level context information, and ignore the atomic action details in the video. Second, the coarse action classes often lead to the ambiguous annotations of temporal boundaries, which are inappropriate for temporal action localization. To tackle these problems, we develop a novel large-scale and fine-grained video dataset, coined as FineAction, for temporal action localization. In total, FineAction contains 103K temporal instances of 106 action categories, annotated in 17K untrimmed videos. Compared to the existing TAL datasets, our FineAction takes distinct characteristics of fine action classes with rich diversity, dense annotations of multiple instances, and co-occurring actions of different classes, which introduces new opportunities and challenges for temporal action localization. To benchmark FineAction, we systematically investigate the performance of several popular temporal localization methods on it, and deeply analyze the influence of fine-grained instances in temporal action localization. As a minor contribution, we present a simple baseline approach for handling the fine-grained action detection, which achieves an mAP of 13.17% on our FineAction. We believe that FineAction can advance research of temporal action localization and beyond.
updated: Thu Oct 20 2022 10:30:59 GMT+0000 (UTC)
published: Mon May 24 2021 06:06:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト