ボリュームハンドモデルに基づいて、奥行き画像で手姿勢推定器をトレーニングするために、モデルベースの生成的損失を使用することを提案します。この追加の損失により、注釈を付けやすい6つのキーポイント(指先と手首)の監視のみを使用しながら、21の手のキーポイントのセット全体を正確に推測する手のポーズ推定器のトレーニングが可能になります。私たちは、部分的に監視された方法が、アーティキュレーションの一貫性を強化する完全に監視された方法に匹敵する結果を達成することを示しています。さらに、このようなアプローチを使用して、注釈が誤っているデータセット、つまり「グラウンドトゥルース」に顕著な測定誤差があるトレーニングに使用できることを初めて実証し、特定の「グラウンドトゥルース」よりも奥行き画像を説明する予測を取得します。 。
We propose to use a model-based generative loss for training hand pose estimators on depth images based on a volumetric hand model. This additional loss allows training of a hand pose estimator that accurately infers the entire set of 21 hand keypoints while only using supervision for 6 easy-to-annotate keypoints (fingertips and wrist). We show that our partially-supervised method achieves results that are comparable to those of fully-supervised methods which enforce articulation consistency. Moreover, for the first time we demonstrate that such an approach can be used to train on datasets that have erroneous annotations, i.e. "ground truth" with notable measurement errors, while obtaining predictions that explain the depth images better than the given "ground truth".