単一の深度画像からの3D手ポーズ推定は、コンピュータービジョンと人間とコンピューターの相互作用において重要な役割を果たします。コンボリューションニューラルネットワーク(CNN)を使用した最近の手の姿勢推定方法は、精度の顕著な改善を示しましたが、それらのほとんどには、手の関節構造を完全に活用せずに複雑なネットワーク構造に依存するという制限があります。関節オブジェクトである手は、手のひらと5本の独立した指の6つのローカル部分で構成されています。各指は、運動学的チェーンと呼ばれる拘束された動きを提供する順次ジョイントで構成されています。本稿では、手のひらと5本の指の3D位置を独立して推定する6つの分岐を持つ階層構造畳み込みリカレントニューラルネットワーク(HCRNN)を提案します。手のひらの位置は、完全に接続されたレイヤーを介して予測されます。各順次ジョイント、つまり指の位置は、リカレントニューラルネットワーク(RNN)を使用して取得され、隣接するジョイント間の空間依存性をキャプチャします。次に、手のひらと指の枝の出力フィーチャを連結して、グローバルな手の位置を推定します。 HCRNNは、3Dボクセルや点群などの時間のかかるデータ変換を行わずに、深度マップを直接入力として使用します。パブリックデータセットに関する実験結果は、提案されたHCRNNが入力として深度画像を使用するほとんどの2D CNNベースの方法よりも優れているだけでなく、非常に効率的な実行速度で最先端の3D CNNベースの方法で競争力のある結果を達成することを示しています単一GPUで285 fpsの。
3D hand pose estimation from a single depth image plays an important role in computer vision and human-computer interaction. Although recent hand pose estimation methods using convolution neural network (CNN) have shown notable improvements in accuracy, most of them have a limitation that they rely on a complex network structure without fully exploiting the articulated structure of the hand. A hand, which is an articulated object, is composed of six local parts: the palm and five independent fingers. Each finger consists of sequential-joints that provide constrained motion, referred to as a kinematic chain. In this paper, we propose a hierarchically-structured convolutional recurrent neural network (HCRNN) with six branches that estimate the 3D position of the palm and five fingers independently. The palm position is predicted via fully-connected layers. Each sequential-joint, i.e. finger position, is obtained using a recurrent neural network (RNN) to capture the spatial dependencies between adjacent joints. Then the output features of the palm and finger branches are concatenated to estimate the global hand position. HCRNN directly takes the depth map as an input without a time-consuming data conversion, such as 3D voxels and point clouds. Experimental results on public datasets demonstrate that the proposed HCRNN not only outperforms most 2D CNN-based methods using the depth image as their inputs but also achieves competitive results with state-of-the-art 3D CNN-based methods with a highly efficient running speed of 285 fps on a single GPU.