arXiv reaDer
複雑なイベントにおけるグループスケルトンベースのヒューマンアクション認識
Group-Skeleton-Based Human Action Recognition in Complex Events
コンピュータビジョンの重要なアプリケーションとしての人間の行動認識は、何十年にもわたって研究されてきました。さまざまなアプローチの中で、スケルトンベースの方法は、その堅牢で優れたパフォーマンスにより、最近ますます注目を集めています。ただし、既存のスケルトンベースの方法では、異なる人物間の潜在的な行動関係が無視されますが、ある人物の行動は、特に複雑なイベントで別の人物の影響を受ける可能性が高くなります。本論文では、複雑なイベントにおける新しいグループスケルトンベースの人間の行動認識方法を提案します。この方法では、最初にマルチスケールの時空間グラフ畳み込みネットワーク(MS-G3D)を利用して、複数の人物から骨格の特徴を抽出します。従来のキーポイント座標に加えて、パフォーマンスを向上させるために、キーポイント速度の値もネットワークに入力します。次に、多層パーセプトロン(MLP)を使用して、参照人物と他の人物との間の距離値を抽出された特徴に埋め込みます。最後に、すべての機能は、機能の融合と分類のために別のMS-G3Dに送られます。クラスの不均衡の問題を回避するために、ネットワークはフォーカルロスでトレーニングされます。提案されたアルゴリズムは、複雑なイベントの課題における大規模な人間中心のビデオ分析のためのソリューションでもあります。 HiEveデータセットの結果は、私たちの方法が他の最先端の方法と比較して優れたパフォーマンスを提供できることを示しています。
Human action recognition as an important application of computer vision has been studied for decades. Among various approaches, skeleton-based methods recently attract increasing attention due to their robust and superior performance. However, existing skeleton-based methods ignore the potential action relationships between different persons, while the action of a person is highly likely to be impacted by another person especially in complex events. In this paper, we propose a novel group-skeleton-based human action recognition method in complex events. This method first utilizes multi-scale spatial-temporal graph convolutional networks (MS-G3Ds) to extract skeleton features from multiple persons. In addition to the traditional key point coordinates, we also input the key point speed values to the networks for better performance. Then we use multilayer perceptrons (MLPs) to embed the distance values between the reference person and other persons into the extracted features. Lastly, all the features are fed into another MS-G3D for feature fusion and classification. For avoiding class imbalance problems, the networks are trained with a focal loss. The proposed algorithm is also our solution for the Large-scale Human-centric Video Analysis in Complex Events Challenge. Results on the HiEve dataset show that our method can give superior performance compared to other state-of-the-art methods.
updated: Thu Feb 25 2021 03:42:32 GMT+0000 (UTC)
published: Thu Nov 26 2020 13:19:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト