End-to-end Hand Mesh Recovery from a Monocular RGB Image
  この論文では、単一のRGB画像から人間の手の完全な3Dメッシュを再構築する問題に取り組むために、HAnd Mesh Recovery(HAMR)フレームワークを提示します。 RGBまたは/および深度画像データからの2Dまたは3D手ポーズ推定に関する既存の研究とは対照的に、HAMRは単眼の手画像を理解するためにより表現力豊かで有用なメッシュ表現を提供できます。特に、メッシュ表現は、一般的な3Dハンドモデルを形状と相対3Dジョイント角度でパラメーター化することで実現されます。このメッシュ表現を利用することにより、メッシュの頂点間の線形補間を介して3Dジョイント位置を簡単に計算でき、3Dジョイントの投影で2Dジョイント位置を取得できます。このため、微分可能な再投影損失を導出された表現と根拠に基づいて定義されているため、フレームワークをエンドツーエンドでトレーニングできます。定性的な実験により、フレームワークは厳しいオクルージョンが存在する場合でも魅力的な3Dハンドメッシュを回復できることがわかります。また、このアプローチは、いくつかのベンチマークデータセット上の単眼RGB画像からの2Dおよび3Dの両方の手の姿勢推定について、最先端の方法よりも優れています。
In this paper, we present a HAnd Mesh Recovery (HAMR) framework to tackle the problem of reconstructing the full 3D mesh of a human hand from a single RGB image. In contrast to existing research on 2D or 3D hand pose estimation from RGB or/and depth image data, HAMR can provide a more expressive and useful mesh representation for monocular hand image understanding. In particular, the mesh representation is achieved by parameterizing a generic 3D hand model with shape and relative 3D joint angles. By utilizing this mesh representation, we can easily compute the 3D joint locations via linear interpolations between the vertexes of the mesh, while obtain the 2D joint locations with a projection of the 3D joints.To this end, a differentiable re-projection loss can be defined in terms of the derived representations and the ground-truth labels, thus making our framework end-to-end trainable.Qualitative experiments show that our framework is capable of recovering appealing 3D hand mesh even in the presence of severe occlusions.Quantitatively, our approach also outperforms the state-of-the-art methods for both 2D and 3D hand pose estimation from a monocular RGB image on several benchmark datasets.
