グラフ畳み込みネットワーク (GCN) は、スケルトンベースのアクション認識において顕著なパフォーマンスを達成しました。ただし、既存の以前の GCN ベースの手法は、精巧な人体の事前分布に過度に依存し、複雑な特徴集約メカニズムを構築しているため、ネットワークの一般化可能性が制限されています。これらの問題を解決するために、我々は新しい空間トポロジー ゲーティング ユニット (STGU) を提案します。これは、余分な事前分布を持たない MLP ベースのバリアントであり、すべてのジョイントにわたる空間依存性をエンコードする共起トポロジーの特徴を捕捉します。 STGU では、サンプル固有で完全に独立したポイントごとのトポロジ アテンションをモデル化するために、入力から生成されたアテンション マップによってポイントツーポイントでフィーチャをアクティブ化する新しいゲートベースのフィーチャ インタラクション メカニズムが導入されています。この研究では、STGU に基づいて、スケルトンベースのアクション認識のための最初のトポロジー認識 MLP ベースのモデルである Ta-MLP を提案します。 3 つの大規模データセットに対する既存の以前の手法と比較して、Ta-MLP は競争力のあるパフォーマンスを達成します。さらに、Ta-MLP はパラメーターを最大 62.5% 削減し、良好な結果をもたらします。以前の最先端 (SOAT) アプローチと比較して、Ta-MLP はリアルタイム アクション認識の最前線を押し広げます。コードは https://github.com/BUPTSJZhang/Ta-MLP で入手できます。
Graph convolution networks (GCNs) have achieved remarkable performance in skeleton-based action recognition. However, existing previous GCN-based methods have relied excessively on elaborate human body priors and constructed complex feature aggregation mechanisms, which limits the generalizability of networks. To solve these problems, we propose a novel Spatial Topology Gating Unit (STGU), which is an MLP-based variant without extra priors, to capture the co-occurrence topology features that encode the spatial dependency across all joints. In STGU, to model the sample-specific and completely independent point-wise topology attention, a new gate-based feature interaction mechanism is introduced to activate the features point-to-point by the attention map generated from the input. Based on the STGU, in this work, we propose the first topology-aware MLP-based model, Ta-MLP, for skeleton-based action recognition. In comparison with existing previous methods on three large-scale datasets, Ta-MLP achieves competitive performance. In addition, Ta-MLP reduces the parameters by up to 62.5% with favorable results. Compared with previous state-of-the-art (SOAT) approaches, Ta-MLP pushes the frontier of real-time action recognition. The code will be available at https://github.com/BUPTSJZhang/Ta-MLP.