arXiv reaDer
ディープラーニングを活用した時空間行動検出に関する調査
A Survey on Deep Learning-based Spatio-temporal Action Detection
時空間アクション検出 (STAD) は、ビデオ内に存在するアクションを分類し、空間と時間の位置を特定することを目的としています。コンピュータビジョンは、自動運転、視覚監視、エンターテイメントなどの実世界への応用が爆発的に出現しているため、特に活発な研究分野となっています。近年、堅牢で効果的なフレームワークを構築するために多くの努力が払われてきました。スタッド。このペーパーでは、最先端の深層学習ベースの STAD 手法の包括的なレビューを提供します。まず、これらの方法を整理するための分類法が開発されます。次に、フレームレベルまたはクリップレベルの検出結果を関連付けてアクション チューブを形成することを目的としたリンク アルゴリズムについて説明します。次に、一般的に使用されるベンチマーク データセットと評価指標が紹介され、最先端のモデルのパフォーマンスが比較されます。最後に、この論文は結論として、STAD の一連の潜在的な研究の方向性について議論されています。
Spatio-temporal action detection (STAD) aims to classify the actions present in a video and localize them in space and time. It has become a particularly active area of research in computer vision because of its explosively emerging real-world applications, such as autonomous driving, visual surveillance, entertainment, etc. Many efforts have been devoted in recent years to building a robust and effective framework for STAD. This paper provides a comprehensive review of the state-of-the-art deep learning-based methods for STAD. Firstly, a taxonomy is developed to organize these methods. Next, the linking algorithms, which aim to associate the frame- or clip-level detection results together to form action tubes, are reviewed. Then, the commonly used benchmark datasets and evaluation metrics are introduced, and the performance of state-of-the-art models is compared. At last, this paper is concluded, and a set of potential research directions of STAD are discussed.
updated: Thu Aug 03 2023 08:48:14 GMT+0000 (UTC)
published: Thu Aug 03 2023 08:48:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト