2Dキーポイント推定は、人体と手の3Dポーズ推定問題の重要な前兆です。この作業では、AR / VRウェアラブルなどの高度に制約されたメモリと計算エンベロープを備えた組み込みデバイスに、非常に効率的な2.5D手ポーズ推定を展開するために必要なデータ、アーキテクチャ、およびトレーニング手順について説明します。 2.5Dハンドポーズの推定は、深度センサーによってキャプチャされ、対応する深度値を使用して2.5Dに持ち上げられたエゴセントリック画像上の関節位置の2Dキーポイント推定で構成されます。私たちの貢献は2つあります。(a)データラベリングと拡張戦略、つまり、フロップカウントが$ 3 \%$になり、状態の状態と比較した場合のパラメーター数が$ 2 \%$になるネットワークアーキテクチャのモジュールについて説明します。 art MobileNetV2アーキテクチャ。 (b)MobileNetV2と同等のパフォーマンスを達成しながら、ネットワークの小容量を補うために必要な補助的なマルチタスクトレーニング戦略を提案します。 32ビットのトレーニングモデルのメモリフットプリントは300キロバイト未満で、50 MHz以上で動作し、35 MFLOP未満です。
2D Key-point estimation is an important precursor to 3D pose estimation problems for human body and hands. In this work, we discuss the data, architecture, and training procedure necessary to deploy extremely efficient 2.5D hand pose estimation on embedded devices with highly constrained memory and compute envelope, such as AR/VR wearables. Our 2.5D hand pose estimation consists of 2D key-point estimation of joint positions on an egocentric image, captured by a depth sensor, and lifted to 2.5D using the corresponding depth values. Our contributions are two fold: (a) We discuss data labeling and augmentation strategies, the modules in the network architecture that collectively lead to $3\%$ the flop count and $2\%$ the number of parameters when compared to the state of the art MobileNetV2 architecture. (b) We propose an auxiliary multi-task training strategy needed to compensate for the small capacity of the network while achieving comparable performance to MobileNetV2. Our 32-bit trained model has a memory footprint of less than 300 Kilobytes, operates at more than 50 Hz with less than 35 MFLOPs.