グラフ畳み込みネットワーク (GCN) は、3D 人間の姿勢推定に効果的なアプローチであることが証明されています。人体の骨格構造をグラフとして自然にモデル化することで、GCN は関節間の空間関係を把握し、基礎となる姿勢の効率的な表現を学習することができます。ただし、GCN ベースの手法のほとんどは共有ウェイト マトリックスを使用するため、ジョイント間の異なる複雑な関係を正確に把握することが困難になります。この論文では、3D 人間の姿勢推定のための反復グラフ フィルタリング フレームワークを紹介します。これは、画像内の 2D 関節位置のセットが与えられた場合に 3D 関節位置を予測することを目的としています。私たちのアプローチは、ガウス・ザイデル反復法によるラプラシアン正則化によるグラフ フィルタリングを反復的に解くというアイデアに基づいています。この反復的なソリューションを動機として、重みと隣接変調、スキップ接続、層正規化を備えた純粋な畳み込みブロックを利用するガウス・ザイデル ネットワーク (GS-Net) アーキテクチャを設計します。隣接変調により、体の関節の固有の接続を超えるエッジの学習が容易になり、人間の骨格を反映する調整されたグラフ構造が得られます。一方、スキップ接続は、ネットワークの深さが増加しても入力層の初期特徴からの重要な情報を維持するのに役立ちます。提案したモデルを 2 つの標準ベンチマーク データセットで評価し、3D 人間の姿勢推定のための強力なベースライン手法の包括的なセットと比較します。私たちの実験結果は、私たちのアプローチが両方のデータセットでベースライン手法を上回り、最先端のパフォーマンスを達成していることを示しています。さらに、アブレーション研究を実施して、モデル アーキテクチャのさまざまなコンポーネントの寄与を分析し、スキップ接続と隣接変調がモデルのパフォーマンスの向上に役立つことを示します。
Graph convolutional networks (GCNs) have proven to be an effective approach for 3D human pose estimation. By naturally modeling the skeleton structure of the human body as a graph, GCNs are able to capture the spatial relationships between joints and learn an efficient representation of the underlying pose. However, most GCN-based methods use a shared weight matrix, making it challenging to accurately capture the different and complex relationships between joints. In this paper, we introduce an iterative graph filtering framework for 3D human pose estimation, which aims to predict the 3D joint positions given a set of 2D joint locations in images. Our approach builds upon the idea of iteratively solving graph filtering with Laplacian regularization via the Gauss-Seidel iterative method. Motivated by this iterative solution, we design a Gauss-Seidel network (GS-Net) architecture, which makes use of weight and adjacency modulation, skip connection, and a pure convolutional block with layer normalization. Adjacency modulation facilitates the learning of edges that go beyond the inherent connections of body joints, resulting in an adjusted graph structure that reflects the human skeleton, while skip connections help maintain crucial information from the input layer's initial features as the network depth increases. We evaluate our proposed model on two standard benchmark datasets, and compare it with a comprehensive set of strong baseline methods for 3D human pose estimation. Our experimental results demonstrate that our approach outperforms the baseline methods on both datasets, achieving state-of-the-art performance. Furthermore, we conduct ablation studies to analyze the contributions of different components of our model architecture and show that the skip connection and adjacency modulation help improve the model performance.