arXiv reaDer
カスケード次元リフティングによる深い単眼3D人間の姿勢推定
Deep Monocular 3D Human Pose Estimation via Cascaded Dimension-Lifting
単一の画像からの3Dポーズ推定は、深度のあいまいさのために難しい問題です。以前の方法の1つのタイプは、外部の2Dポーズ検出器を使用して取得した2Dジョイントを3D空間に持ち上げます。ただし、このタイプのアプローチでは、3Dポーズ推定の強力な手がかりとなる画像のコンテキスト情報が破棄されます。一方、他のいくつかの方法では、単眼画像から直接関節を予測しますが、2.5D出力表現P ^ 2.5D =(u、v、z ^ r)を採用します。ここで、uとvは両方とも画像空間にあり、z ^ rはルートにあります-相対的な3D空間。したがって、グラウンドトゥルース情報(たとえば、カメラからのルートジョイントの深さ)は、通常、2.5D出力を3D空間に変換するために使用されます。これにより、実際の適用性が制限されます。この作業では、コンテキスト情報を活用するだけでなく、カスケードされた次元リフティングを介して3D空間で直接出力を生成する新しいエンドツーエンドのフレームワークを提案します。具体的には、ポーズを2D画像空間から3D空間空間に持ち上げるタスクを、いくつかの連続したサブタスクに分解します。1)2D空間での運動学的スケルトンと個々の関節の推定、2)ルート相対深度の推定、3) 3D空間。それぞれが直接監視とコンテキスト画像機能を使用して、学習プロセスをガイドします。広範な実験により、提案されたフレームワークは、広く使用されている2つの3D人間ポーズデータセット(Human3.6M、MuPoTS-3D)で最先端のパフォーマンスを実現することが示されています。
The 3D pose estimation from a single image is a challenging problem due to depth ambiguity. One type of the previous methods lifts 2D joints, obtained by resorting to external 2D pose detectors, to the 3D space. However, this type of approaches discards the contextual information of images which are strong cues for 3D pose estimation. Meanwhile, some other methods predict the joints directly from monocular images but adopt a 2.5D output representation P^2.5D = (u,v,z^r) where both u and v are in the image space but z^r in root-relative 3D space. Thus, the ground-truth information (e.g., the depth of root joint from the camera) is normally utilized to transform the 2.5D output to the 3D space, which limits the applicability in practice. In this work, we propose a novel end-to-end framework that not only exploits the contextual information but also produces the output directly in the 3D space via cascaded dimension-lifting. Specifically, we decompose the task of lifting pose from 2D image space to 3D spatial space into several sequential sub-tasks, 1) kinematic skeletons \& individual joints estimation in 2D space, 2) root-relative depth estimation, and 3) lifting to the 3D space, each of which employs direct supervisions and contextual image features to guide the learning process. Extensive experiments show that the proposed framework achieves state-of-the-art performance on two widely used 3D human pose datasets (Human3.6M, MuPoTS-3D).
updated: Thu Apr 08 2021 05:44:02 GMT+0000 (UTC)
published: Thu Apr 08 2021 05:44:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト