この調査では、効率的な注釈と学習の観点から、3D の手の姿勢推定の体系的なレビューを提示します。 3D の手の姿勢推定は、ビデオ理解、AR/VR、ロボティクスなどのさまざまなアプリケーションを可能にする可能性があるため、重要な研究分野となっています。ただし、モデルのパフォーマンスは、注釈付きの 3D ハンド ポーズの質と量に左右されます。現状では、このような注釈付きの 3D 手のポーズを取得することは、たとえば、3D 注釈の難しさとオクルージョンの存在により困難です。この問題を明らかにするために、手動、合成モデルベース、ハンドセンサーベース、および計算アプローチとして分類される既存の注釈方法の長所と短所を確認します。さらに、自己教師あり事前トレーニング、半教師あり学習、ドメイン適応など、注釈付きデータが不足している場合に 3D の手のポーズを学習する方法を調べます。効率的な注釈と学習の研究に基づいて、この分野の限界と将来の方向性についてさらに議論します。
In this survey, we present a systematic review of 3D hand pose estimation from the perspective of efficient annotation and learning. 3D hand pose estimation has been an important research area owing to its potential to enable various applications, such as video understanding, AR/VR, and robotics. However, the performance of models is tied to the quality and quantity of annotated 3D hand poses. Under the status quo, acquiring such annotated 3D hand poses is challenging, e.g., due to the difficulty of 3D annotation and the presence of occlusion. To reveal this problem, we review the pros and cons of existing annotation methods classified as manual, synthetic-model-based, hand-sensor-based, and computational approaches. Additionally, we examine methods for learning 3D hand poses when annotated data are scarce, including self-supervised pretraining, semi-supervised learning, and domain adaptation. Based on the study of efficient annotation and learning, we further discuss limitations and possible future directions in this field.