単一画像ベースの 3D 人物メッシュの復元は大幅に進歩しましたが、ビデオから 3D 人物の動きを正確かつスムーズに復元することは依然として課題です。既存のビデオベースの方法は一般に、結合された画像特徴から複雑なポーズと形状のパラメータを推定することによって人間のメッシュを復元しますが、複雑性が高く表現能力が低いため、ポーズの動きが一貫性がなく、形状パターンが制限されることがよくあります。この問題を軽減するために、仲介として 3D ポーズを導入し、このタスクを 2 つの部分に分離する Pose and Mesh Co-Evolution network (PMCE) を提案します。1) ビデオベースの 3D 人間の姿勢推定と 2)推定された 3D 姿勢と時間的画像特徴。具体的には、フレーム中央の 3D 姿勢を推定し、入力画像シーケンスから時間画像特徴を抽出する 2 ストリーム エンコーダを提案します。さらに、画像誘導適応層正規化 (AdaLN) とのポーズとメッシュの相互作用を実行して、ポーズとメッシュを人体の形状に適合させる共進化デコーダーを設計します。広範な実験により、提案された PMCE が、3DPW、Human3.6M、および MPI-INF-3DHP の 3 つのベンチマーク データセットにおけるフレームごとの精度と時間的一貫性の両方の点で、以前の最先端の方法よりも優れていることが実証されました。私たちのコードは https://github.com/kasvii/PMCE で入手できます。
Despite significant progress in single image-based 3D human mesh recovery, accurately and smoothly recovering 3D human motion from a video remains challenging. Existing video-based methods generally recover human mesh by estimating the complex pose and shape parameters from coupled image features, whose high complexity and low representation ability often result in inconsistent pose motion and limited shape patterns. To alleviate this issue, we introduce 3D pose as the intermediary and propose a Pose and Mesh Co-Evolution network (PMCE) that decouples this task into two parts: 1) video-based 3D human pose estimation and 2) mesh vertices regression from the estimated 3D pose and temporal image feature. Specifically, we propose a two-stream encoder that estimates mid-frame 3D pose and extracts a temporal image feature from the input image sequence. In addition, we design a co-evolution decoder that performs pose and mesh interactions with the image-guided Adaptive Layer Normalization (AdaLN) to make pose and mesh fit the human body shape. Extensive experiments demonstrate that the proposed PMCE outperforms previous state-of-the-art methods in terms of both per-frame accuracy and temporal consistency on three benchmark datasets: 3DPW, Human3.6M, and MPI-INF-3DHP. Our code is available at https://github.com/kasvii/PMCE.