シングルビューの2Dから3Dへのポーズ推定問題を解決するために、さまざまな深層学習手法が提案されています。平均予測精度は長年にわたって大幅に改善されていますが、深さのあいまいさ、自己閉塞、複雑またはまれなポーズを伴うハードポーズでのパフォーマンスはまだ満足のいくものではありません。この作品では、これらのハードポーズを対象とし、新しい骨格GNN学習ソリューションを提示します。具体的には、GNN学習における不要なノイズを抑制しながら、隣接ノードから関連情報を効果的に抽出するための、ホップ対応の階層チャネルスクイーズ融合層を提案します。さらに、3Dポーズ推定にロバストで効果的な時間認識動的グラフ構築手順を提案します。 Human3.6Mデータセットの実験結果は、私たちのソリューションが10.3%の平均予測精度の向上を達成し、最先端の技術よりもハードポーズを大幅に向上させることを示しています。さらに、提案された手法をスケルトンベースのアクション認識タスクに適用し、最先端のパフォーマンスを実現します。私たちのコードはhttps://github.com/ailingzengzzz/Skeletal-GNNで入手できます。
Various deep learning techniques have been proposed to solve the single-view 2D-to-3D pose estimation problem. While the average prediction accuracy has been improved significantly over the years, the performance on hard poses with depth ambiguity, self-occlusion, and complex or rare poses is still far from satisfactory. In this work, we target these hard poses and present a novel skeletal GNN learning solution. To be specific, we propose a hop-aware hierarchical channel-squeezing fusion layer to effectively extract relevant information from neighboring nodes while suppressing undesired noises in GNN learning. In addition, we propose a temporal-aware dynamic graph construction procedure that is robust and effective for 3D pose estimation. Experimental results on the Human3.6M dataset show that our solution achieves 10.3% average prediction accuracy improvement and greatly improves on hard poses over state-of-the-art techniques. We further apply the proposed technique on the skeleton-based action recognition task and also achieve state-of-the-art performance. Our code is available at https://github.com/ailingzengzzz/Skeletal-GNN.