Fast Monocular Hand Pose Estimation on Embedded Systems
手のポーズの推定は、多くの人間とロボットの相互作用に関連するアプリケーションの基本的なタスクです。ただし、以前のアプローチでは、実際のシーンでの手のランドマーク予測が不十分であり、計算負荷が高いという問題があります。この論文では、「FastHand」と呼ばれる、手のポーズ推定のための高速で正確なフレームワークを提案します。 FastHandは、軽量のエンコーダ-デコーダネットワークアーキテクチャを使用して、組み込みデバイスで実行される実用的なアプリケーションの要件を満たします。エンコーダーは少数のパラメーターを持つ深いレイヤーで構成され、デコーダーは空間位置情報を利用してより正確な結果を取得します。評価は、他の最先端のアプローチと比較して提案されたパイプラインのパフォーマンスが向上していることを示す、2つの公開されているデータセットで行われました。 FastHandは、NVIDIA Jetson TX2グラフィックスプロセッシングユニットで毎秒25フレームの速度に到達しながら、高精度のスコアを提供します。
Hand pose estimation is a fundamental task in many human-robot interaction-related applications. However, previous approaches suffer from unsatisfying hand landmark predictions in real-world scenes and high computation burden. In this paper, we propose a fast and accurate framework for hand pose estimation, dubbed as "FastHand". Using a lightweight encoder-decoder network architecture, FastHand fulfills the requirements of practical applications running on embedded devices. The encoder consists of deep layers with a small number of parameters, while the decoder makes use of spatial location information to obtain more accurate results. The evaluation took place on two publicly available datasets demonstrating the improved performance of the proposed pipeline compared to other state-of-the-art approaches. FastHand offers high accuracy scores while reaching a speed of 25 frames per second on an NVIDIA Jetson TX2 graphics processing unit.
updated: Sat Aug 07 2021 03:16:49 GMT+0000 (UTC)
published: Sun Feb 14 2021 04:12:41 GMT+0000 (UTC)
