arXiv reaDer
スケルトンベースのアクション認識のためのグラフ ニューラル ネットワークの高次機能の融合
Fusing Higher-order Features in Graph Neural Networks for Skeleton-based Action Recognition
スケルトン シーケンスは軽量でコンパクトなため、エッジ デバイスでのアクション認識の理想的な候補です。最近の骨格ベースの動作認識方法では、3D 関節座標から特徴を時空間キューとして抽出し、これらの表現をグラフ ニューラル ネットワークで使用して特徴融合を行い、認識パフォーマンスを向上させます。一次および二次特徴、すなわち関節および骨の表現を使用することで、高い精度が得られました。それにもかかわらず、多くのモデルは、同様のモーション軌跡を持つアクションによって依然として混乱しています。これらの問題に対処するために、角度エンコーディングの形式で高次の機能を最新のアーキテクチャに融合して、関節と身体部分の関係を確実に捉えることを提案します。この一般的な時空間グラフ ニューラル ネットワークとの単純な融合により、NTU60 と NTU120 を含む 2 つの大規模なベンチマークで最先端の精度が達成され、使用するパラメーターと実行時間が短縮されます。ソース コードは、https://github.com/ZhenyueQin/Angular-Skeleton-Encoding で公開されています。
Skeleton sequences are lightweight and compact, and thus are ideal candidates for action recognition on edge devices. Recent skeleton-based action recognition methods extract features from 3D joint coordinates as spatial-temporal cues, using these representations in a graph neural network for feature fusion to boost recognition performance. The use of first- and second-order features, i.e., joint and bone representations, has led to high accuracy. Nonetheless, many models are still confused by actions that have similar motion trajectories. To address these issues, we propose fusing higher-order features in the form of angular encoding into modern architectures to robustly capture the relationships between joints and body parts. This simple fusion with popular spatial-temporal graph neural networks achieves new state-of-the-art accuracy in two large benchmarks, including NTU60 and NTU120, while employing fewer parameters and reduced run time. Our source code is publicly available at: https://github.com/ZhenyueQin/Angular-Skeleton-Encoding.
updated: Tue Aug 23 2022 04:34:39 GMT+0000 (UTC)
published: Tue May 04 2021 15:23:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト