arXiv reaDer
3Mformer: 骨格動作認識のための多次マルチモード変換器
3Mformer: Multi-order Multi-mode Transformer for Skeletal Action Recognition
多くの骨格動作認識モデルでは、GCN を使用して人体を 3D ボディ ジョイントで接続されたボディ パーツで表現します。 GCN は、1 ホップまたは数ホップ グラフの近傍を集約し、リンクされていないボディ ジョイント間の依存関係を無視します。ハイパーグラフを形成して、グラフ ノード間のハイパーエッジをモデル化することを提案します (たとえば、3 次および 4 次のハイパーエッジは 3 つおよび 4 つのノードをキャプチャします)。アクション シーケンスを時間ブロックに分割します。高次トランスフォーマー (HoT) は、(i) ボディ ジョイント、(ii) ボディ ジョイントのペアワイズ リンク、および (iii) スケルトンの高次ハイパーエッジに基づいて、各時間ブロックの埋め込みを生成します。体の関節。このような次数 1、...、r のハイパーエッジの HoT 埋め込みを、結合モード トークンで結合モード アテンションを実現するために順序を交換できる 2 つのモジュールと、新しいマルチオーダ マルチモード トランスフォーマー (3Mformer) によって組み合わせます。 'channel-temporal block'、'order-channel-body joint'、'channel-hyper-edge (任意の順序)'、'channel-only' のペアに基づいています。マルチオーダー プーリング (MP) と呼ばれる最初のモジュールは、ハイパーエッジ モードに沿って加重集計を追加で学習しますが、2 番目のモジュールであるテンポラル ブロック プーリング (TP) は、テンポラル ブロック モードに沿って集計します。当社のエンドツーエンドのトレーニング可能なネットワークは、GCN、トランスフォーマー、およびハイパーグラフ ベースのネットワークと比較して、最先端の結果をもたらします。
Many skeletal action recognition models use GCNs to represent the human body by 3D body joints connected body parts. GCNs aggregate one- or few-hop graph neighbourhoods, and ignore the dependency between not linked body joints. We propose to form hypergraph to model hyper-edges between graph nodes (e.g., third- and fourth-order hyper-edges capture three and four nodes) which help capture higher-order motion patterns of groups of body joints. We split action sequences into temporal blocks, Higher-order Transformer (HoT) produces embeddings of each temporal block based on (i) the body joints, (ii) pairwise links of body joints and (iii) higher-order hyper-edges of skeleton body joints. We combine such HoT embeddings of hyper-edges of orders 1, ..., r by a novel Multi-order Multi-mode Transformer (3Mformer) with two modules whose order can be exchanged to achieve coupled-mode attention on coupled-mode tokens based on 'channel-temporal block', 'order-channel-body joint', 'channel-hyper-edge (any order)' and 'channel-only' pairs. The first module, called Multi-order Pooling (MP), additionally learns weighted aggregation along the hyper-edge mode, whereas the second module, Temporal block Pooling (TP), aggregates along the temporal block mode. Our end-to-end trainable network yields state-of-the-art results compared to GCN-, transformer- and hypergraph-based counterparts.
updated: Sat Mar 25 2023 14:06:31 GMT+0000 (UTC)
published: Sat Mar 25 2023 14:06:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト