Transformer は、長期モデリングを利用して 2D キーポイントを 3D 空間に持ち上げる、最近の 3D 人間の姿勢推定で人気があります。ただし、変流器ベースの方法では、運動学的構造によって提供される人間の骨格に関する事前の知識が十分に活用されていません。本稿では、3D人間の姿勢推定に人体の事前知識を効果的に導入するための新しいトランスフォーマーベースのモデルEvoPoseを提案します。具体的には、構造事前表現 (SPR) モジュールは、関節関係などの豊富な身体パターンを保持する構造的特徴として人間の事前表現を表現します。構造的特徴は 2D ポーズ シーケンスと相互作用し、モデルがより有益な時空間的特徴を実現するのに役立ちます。さらに、再帰的リファインメント (RR) モジュールを適用して、推定結果を利用して 3D ポーズ出力をリファインし、さらに人間の事前分布を同時に注入します。広範な実験により、Human3.6M と MPI-INF-3DHP という 2 つの最も人気のあるベンチマークで新しい最先端技術を達成する EvoPose の有効性が実証されています。
Transformer is popular in recent 3D human pose estimation, which utilizes long-term modeling to lift 2D keypoints into the 3D space. However, current transformer-based methods do not fully exploit the prior knowledge of the human skeleton provided by the kinematic structure. In this paper, we propose a novel transformer-based model EvoPose to introduce the human body prior knowledge for 3D human pose estimation effectively. Specifically, a Structural Priors Representation (SPR) module represents human priors as structural features carrying rich body patterns, e.g. joint relationships. The structural features are interacted with 2D pose sequences and help the model to achieve more informative spatiotemporal features. Moreover, a Recursive Refinement (RR) module is applied to refine the 3D pose outputs by utilizing estimated results and further injects human priors simultaneously. Extensive experiments demonstrate the effectiveness of EvoPose which achieves a new state of the art on two most popular benchmarks, Human3.6M and MPI-INF-3DHP.