Single-Network Whole-Body Pose Estimation
  2D全身ポーズ推定のための最初の単一ネットワークアプローチを提示します。これは、身体、顔、手、および足のキーポイントの同時ローカリゼーションを伴います。ボトムアップの定式化により、この方法は、画像内の人数に関係なく一定のリアルタイムパフォーマンスを維持します。ネットワークは、マルチタスク学習を使用して、身体/足と顔/手のキーポイント間のスケールの違いを処理できる改善されたアーキテクチャを通じて、単一の段階でトレーニングされます。私たちのアプローチは、OpenPose〜\ cite {cao2018openposeを大幅に改善しました。これは、速度とグローバルな精度の両方の観点から、これまで全身ポーズの推定が可能な唯一の作業です。 OpenPoseとは異なり、この方法では、手と顔の候補ごとに追加のネットワークを実行する必要がないため、複数人のシナリオで大幅に高速化されます。この作業により、2D全身情報(VR / AR、リターゲティングなど)を必要とするアプリケーションの計算の複雑さが直接軽減されます。さらに、特に遮蔽された、ぼやけた、低解像度の顔や手に対して、より高い精度が得られます。コード、トレーニング済みモデル、および検証ベンチマークについては、プロジェクトページにアクセスしてください。
We present the first single-network approach for 2D~whole-body pose estimation, which entails simultaneous localization of body, face, hands, and feet keypoints. Due to the bottom-up formulation, our method maintains constant real-time performance regardless of the number of people in the image. The network is trained in a single stage using multi-task learning, through an improved architecture which can handle scale differences between body/foot and face/hand keypoints. Our approach considerably improves upon OpenPose~\cite{cao2018openpose, the only work so far capable of whole-body pose estimation, both in terms of speed and global accuracy. Unlike OpenPose, our method does not need to run an additional network for each hand and face candidate, making it substantially faster for multi-person scenarios. This work directly results in a reduction of computational complexity for applications that require 2D whole-body information (e.g., VR/AR, re-targeting). In addition, it yields higher accuracy, especially for occluded, blurry, and low resolution faces and hands. For code, trained models, and validation benchmarks, visit our project page:
updated: Mon Sep 30 2019 02:00:53 GMT+0000 (UTC)
published: Mon Sep 30 2019 02:00:53 GMT+0000 (UTC)
