手のポーズの推定は、ほとんどのインタラクティブな拡張現実およびジェスチャ認識システムの重要なコンポーネントですが、現代のアプローチは、計算およびメモリ効率のために最適化されていません。この論文では、以前の推定を精緻化するために部分層が再帰的に利用される小さな深いニューラルネットワークを提案します。反復的な改良の間に、学習したゲーティング基準を使用して、重み共有ループを終了するかどうかを決定し、モデルでサンプルごとの適応を可能にします。私たちのネットワークは、現在の予測の不確実性を認識して、各反復で効率的にゲートし、キーポイント推定の各ループ後の分散を推定するようにトレーニングされています。さらに、モデル容量を最大化するための再帰的構造に対するエンドツーエンドおよびプログレッシブトレーニングプロトコルの有効性を調査します。提案された設定では、私たちの方法は、広く使用されているベンチマークの精度と効率の両方の点で、最先端の2D / 3D手のポーズ推定アプローチを一貫して上回っています。
While hand pose estimation is a critical component of most interactive extended reality and gesture recognition systems, contemporary approaches are not optimized for computational and memory efficiency. In this paper, we propose a tiny deep neural network of which partial layers are recursively exploited for refining its previous estimations. During its iterative refinements, we employ learned gating criteria to decide whether to exit from the weight-sharing loop, allowing per-sample adaptation in our model. Our network is trained to be aware of the uncertainty in its current predictions to efficiently gate at each iteration, estimating variances after each loop for its keypoint estimates. Additionally, we investigate the effectiveness of end-to-end and progressive training protocols for our recursive structure on maximizing the model capacity. With the proposed setting, our method consistently outperforms state-of-the-art 2D/3D hand pose estimation approaches in terms of both accuracy and efficiency for widely used benchmarks.