arXiv reaDer
キーポイントベースのハンドジェスチャ認識のためのRGB画像からの3D手のポーズと形状の推定
3D Hand Pose and Shape Estimation from RGB Images for Keypoint-Based Hand Gesture Recognition
2D画像から手の3Dポーズを推定することは、十分に研究された問題であり、仮想現実、拡張現実、手のジェスチャ認識などのいくつかの現実のアプリケーションの要件です。現在、合理的な推定値は、特にマルチタスク学習アプローチを使用して、ポーズが決定されたときにシステムに手の形状を考慮させる場合に、単一のRGB画像から計算できます。ただし、手を表現する方法によっては、実際のタスクでパフォーマンスが大幅に低下する可能性があり、満足のいく結果を得るには安定した記述が必要であることを示唆しています。この論文では、3D手とポーズの推定のためのキーポイントベースのエンドツーエンドのフレームワークを提示し、それを研究事例としての手のジェスチャ認識のタスクにうまく適用します。具体的には、画像が正規化される前処理ステップの後、提案されたパイプラインは、RGB画像から2Dヒートマップと手のシルエットを生成するマルチタスクセマンティック特徴抽出器、手とカメラのビューパラメータを予測する視点エンコーダを使用します。 3D手のポーズと形状を生成するための手の推定器と、学習フェーズ中にすべてのコンポーネントを一緒にガイドするための損失関数。提案されたフレームワークを評価するために、3Dポーズおよび形状推定ベンチマークデータセットでテストが実行され、最先端のパフォーマンスが得られました。私たちのシステムは、2つのハンドジェスチャ認識ベンチマークデータセットでも評価され、他のキーポイントベースのアプローチを大幅に上回り、手のポーズと形状の安定した3D推定値を生成できる効果的なソリューションであることを示しています。
Estimating the 3D pose of a hand from a 2D image is a well-studied problem and a requirement for several real-life applications such as virtual reality, augmented reality, and hand gesture recognition. Currently, reasonable estimations can be computed from single RGB images, especially when a multi-task learning approach is used to force the system to consider the shape of the hand when its pose is determined. However, depending on the method used to represent the hand, the performance can drop considerably in real-life tasks, suggesting that stable descriptions are required to achieve satisfactory results. In this paper, we present a keypoint-based end-to-end framework for 3D hand and pose estimation and successfully apply it to the task of hand gesture recognition as a study case. Specifically, after a pre-processing step in which the images are normalized, the proposed pipeline uses a multi-task semantic feature extractor generating 2D heatmaps and hand silhouettes from RGB images, a viewpoint encoder to predict the hand and camera view parameters, a stable hand estimator to produce the 3D hand pose and shape, and a loss function to guide all of the components jointly during the learning phase. Tests were performed on a 3D pose and shape estimation benchmark dataset to assess the proposed framework, which obtained state-of-the-art performance. Our system was also evaluated on two hand-gesture recognition benchmark datasets and significantly outperformed other keypoint-based approaches, indicating that it is an effective solution that is able to generate stable 3D estimates for hand pose and shape.
updated: Mon May 09 2022 17:22:19 GMT+0000 (UTC)
published: Tue Sep 28 2021 17:07:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト