arXiv reaDer
GLA-GCN: 3D ヒューマン用のグローバル-ローカル適応グラフ畳み込みネットワーク
GLA-GCN: Global-local Adaptive Graph Convolutional Network for 3D Human
3D 人間の姿勢推定は、何十年にもわたって研究され、有望な成果を上げてきました。 3D 人間のポーズリフティングは、推定ポーズデータとグラウンドトゥルースポーズデータの両方がトレーニングに使用されるタスクに向けた有望な研究方向性の 1 つです。既存のポーズリフティング作業は、主に推定されたポーズのパフォーマンスを向上させることに重点を置いていますが、グラウンドトゥルースポーズデータでテストする場合、通常はパフォーマンスが低下します。 2D ポーズを微調整したり、高度な 2D ポーズ検出器を使用したりするなど、高品質の 2D ポーズを準備することで、推定されたポーズのパフォーマンスを簡単に改善できることがわかりました。そのため、今後のより高品質な推定姿勢データの改善に向けて、グラウンド トゥルース データによる 3D 人間の姿勢リフティングの改善に重点を置いています。この目標に向けて、この研究では、グローバル-ローカル適応グラフ畳み込みネットワーク (GLA-GCN) と呼ばれる、シンプルかつ効果的なモデルが提案されています。当社の GLA-GCN は、グラフ表現を介して時空間構造をグローバルにモデル化し、個別に接続されたレイヤーを介して 3D 人間の姿勢推定のために局所的な関節特徴をバックトレースします。モデル設計を検証するために、Human3.6M、HumanEva-I、MPI-INF-3DHP の 3 つのベンチマーク データセットで広範な実験を実施しました。実験結果は、グラウンド トゥルース 2D ポーズを使用して実装された GLA-GCN が、最先端の手法を大幅に上回るパフォーマンスを示していることを示しています (たとえば、Human3.6M、HumanEva-I、それぞれ、MPI-INF-3DHP と MPI-INF-3DHP)。
3D human pose estimation has been researched for decades with promising fruits. 3D human pose lifting is one of the promising research directions toward the task where both estimated pose and ground truth pose data are used for training. Existing pose lifting works mainly focus on improving the performance of estimated pose, but they usually underperform when testing on the ground truth pose data. We observe that the performance of the estimated pose can be easily improved by preparing good quality 2D pose, such as fine-tuning the 2D pose or using advanced 2D pose detectors. As such, we concentrate on improving the 3D human pose lifting via ground truth data for the future improvement of more quality estimated pose data. Towards this goal, a simple yet effective model called Global-local Adaptive Graph Convolutional Network (GLA-GCN) is proposed in this work. Our GLA-GCN globally models the spatiotemporal structure via a graph representation and backtraces local joint features for 3D human pose estimation via individually connected layers. To validate our model design, we conduct extensive experiments on three benchmark datasets: Human3.6M, HumanEva-I, and MPI-INF-3DHP. Experimental results show that our GLA-GCN implemented with ground truth 2D poses significantly outperforms state-of-the-art methods (e.g., up to around 3%, 17%, and 13% error reductions on Human3.6M, HumanEva-I, and MPI-INF-3DHP, respectively).
updated: Wed Jul 12 2023 00:13:04 GMT+0000 (UTC)
published: Wed Jul 12 2023 00:13:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト