きめの細かい関節(顔の関節、手の指)の欠如は、最先端のスケルトンアクション認識モデルの基本的なパフォーマンスのボトルネックです。このボトルネックにもかかわらず、コミュニティの努力は、新しいアーキテクチャを考案することにのみ投資されているようです。このボトルネックに具体的に対処するために、2つの新しいポーズベースのヒューマンアクションデータセット(NTU60-XとNTU120-X)を紹介します。私たちのデータセットは、既存の最大のアクション認識データセットであるNTU-RGBDを拡張したものです。 NTU-RGBDのように各スケルトンの25のボディジョイントに加えて、NTU60-XおよびNTU120-Xデータセットには指と顔のジョイントが含まれているため、より豊かなスケルトン表現が可能になります。導入されたデータセットを使用したトレーニングを可能にするために、最先端のアプローチを適切に変更します。私たちの結果は、前述のボトルネックを克服し、全体的に、そして以前に最もパフォーマンスの悪いアクションカテゴリで最先端のパフォーマンスを改善する上で、これらのNTU-Xデータセットの有効性を示しています。
The lack of fine-grained joints (facial joints, hand fingers) is a fundamental performance bottleneck for state of the art skeleton action recognition models. Despite this bottleneck, community's efforts seem to be invested only in coming up with novel architectures. To specifically address this bottleneck, we introduce two new pose based human action datasets - NTU60-X and NTU120-X. Our datasets extend the largest existing action recognition dataset, NTU-RGBD. In addition to the 25 body joints for each skeleton as in NTU-RGBD, NTU60-X and NTU120-X dataset includes finger and facial joints, enabling a richer skeleton representation. We appropriately modify the state of the art approaches to enable training using the introduced datasets. Our results demonstrate the effectiveness of these NTU-X datasets in overcoming the aforementioned bottleneck and improve state of the art performance, overall and on previously worst performing action categories.