arXiv reaDer
3Dスケルトンベースのモーション予測のためのマルチスケール時空間グラフニューラルネットワーク
Multiscale Spatio-Temporal Graph Neural Networks for 3D Skeleton-Based Motion Prediction
マルチスケール時空間グラフニューラルネットワーク(MST-GNN)を提案し、アクションカテゴリにとらわれない方法で将来の3Dスケルトンベースの人間のポーズを予測します。 MST-GNNのコアは、さまざまな空間的および時間的スケールでの動きの関係を明示的にモデル化するマルチスケール時空間グラフです。以前の多くの階層構造とは異なり、マルチスケールの時空間グラフはデータ適応型で構築されており、非物理的でありながらモーションベースの関係をキャプチャします。 MST-GNNの主要モジュールは、トレーニング可能なグラフ構造に基づくマルチスケール時空間グラフ計算ユニット(MST-GCU)です。 MST-GCUは、基礎となる機能を個々のスケールに埋め込み、スケール間で機能を融合して包括的な表現を取得します。 MST-GNNの全体的なアーキテクチャは、エンコーダーとデコーダーのフレームワークに従います。エンコーダーは、モーションの空間的および時間的特徴を学習するための一連のMST-GCUで構成され、デコーダーはグラフベースのアテンションゲート回帰ユニット(GA- GRU)将来のポーズを生成します。提案されたMST-GNNが、Human 3.6M、CMU Mocap、および3DPWのデータセットでの短期および長期のモーション予測の両方で最先端の方法よりも優れていることを示すために、広範な実験が実施されています。MST-GNNは以前の作業よりも優れています。 Human 3.6Mの短期および長期予測の平均角度誤差の5.33%および3.67%、CMUモーションキャプチャの短期および長期予測の平均角度誤差の11.84%および4.71%、 3DPWの平均角度誤差の平均でそれぞれ1.13%。解釈可能性について、学習したマルチスケールグラフをさらに調査します。
We propose a multiscale spatio-temporal graph neural network (MST-GNN) to predict the future 3D skeleton-based human poses in an action-category-agnostic manner. The core of MST-GNN is a multiscale spatio-temporal graph that explicitly models the relations in motions at various spatial and temporal scales. Different from many previous hierarchical structures, our multiscale spatio-temporal graph is built in a data-adaptive fashion, which captures nonphysical, yet motion-based relations. The key module of MST-GNN is a multiscale spatio-temporal graph computational unit (MST-GCU) based on the trainable graph structure. MST-GCU embeds underlying features at individual scales and then fuses features across scales to obtain a comprehensive representation. The overall architecture of MST-GNN follows an encoder-decoder framework, where the encoder consists of a sequence of MST-GCUs to learn the spatial and temporal features of motions, and the decoder uses a graph-based attention gate recurrent unit (GA-GRU) to generate future poses. Extensive experiments are conducted to show that the proposed MST-GNN outperforms state-of-the-art methods in both short and long-term motion prediction on the datasets of Human 3.6M, CMU Mocap and 3DPW, where MST-GNN outperforms previous works by 5.33% and 3.67% of mean angle errors in average for short-term and long-term prediction on Human 3.6M, and by 11.84% and 4.71% of mean angle errors for short-term and long-term prediction on CMU Mocap, and by 1.13% of mean angle errors on 3DPW in average, respectively. We further investigate the learned multiscale graphs for interpretability.
updated: Wed Aug 25 2021 14:05:37 GMT+0000 (UTC)
published: Wed Aug 25 2021 14:05:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト