従来の3D人間の姿勢の推定は、最初に2Dボディのキーポイントを検出し、次に2Dから3Dへの対応問題を解決することに依存しています。有望な結果にもかかわらず、この学習パラダイムは2Dキーポイント検出器の品質に大きく依存しています。この論文では、方向のみを学習することで3Dポーズをロバストに推定できる新しいポーズ方向ネット(PONet)を提案します。これにより、画像の証拠がない場合にエラーが発生しやすいキーポイント検出器をバイパスします。手足が部分的に見えない画像の場合、PONetはローカル画像の証拠を利用して3Dポーズを復元することにより、これらの手足の3D方向を推定します。さらに、PONetは、手足が完全に見えない画像からでも、推定されたポーズを補完するための目に見える手足間の方向相関。3Dポーズ推定のロバスト性をさらに向上させます。Human3.6M、MPII、MPI-INF-3DHP、および3DPWを含む複数のデータセットでメソッドを評価します。私たちの方法は、理想的な設定で最先端の技術と同等の結果を達成しますが、キーポイント検出器への依存とそれに対応する計算負荷を大幅に排除します。切り捨てや消去などの非常に困難なシナリオでは、私たちの方法は非常に堅牢に実行され、最先端技術と比較してはるかに優れた結果をもたらし、実際のアプリケーションの可能性を示しています。
Conventional 3D human pose estimation relies on first detecting 2D body keypoints and then solving the 2D to 3D correspondence problem.Despite the promising results, this learning paradigm is highly dependent on the quality of the 2D keypoint detector, which is inevitably fragile to occlusions and out-of-image absences.In this paper,we propose a novel Pose Orientation Net (PONet) that is able to robustly estimate 3D pose by learning orientations only, hence bypassing the error-prone keypoint detector in the absence of image evidence. For images with partially invisible limbs, PONet estimates the 3D orientation of these limbs by taking advantage of the local image evidence to recover the 3D pose.Moreover, PONet is competent to infer full 3D poses even from images with completely invisible limbs, by exploiting the orientation correlation between visible limbs to complement the estimated poses,further improving the robustness of 3D pose estimation.We evaluate our method on multiple datasets, including Human3.6M, MPII, MPI-INF-3DHP, and 3DPW. Our method achieves results on par with state-of-the-art techniques in ideal settings, yet significantly eliminates the dependency on keypoint detectors and the corresponding computation burden. In highly challenging scenarios, such as truncation and erasing, our method performs very robustly and yields much superior results as compared to state of the art,demonstrating its potential for real-world applications.