3D手オブジェクトポーズ推定は、人間と環境の相互作用を理解するための重要な問題です。現在の手物体の姿勢推定方法は、詳細な3Dラベルを必要とし、これは高価で労働集約的です。データ収集の問題に取り組むために、ポーズ辞書学習とオブジェクト指向座標系という2つの主要な手法を使用した半教師あり3D手オブジェクトポーズ推定方法を提案します。提案されたポーズ辞書学習モジュールは、再構成エラーによって実行不可能なポーズを区別することができ、ラベルのないデータが監視信号を提供できるようにします。提案されたオブジェクト指向座標系は、3D推定をカメラの視点と同変にすることができます。実験はFPHAおよびHO-3Dデータセットで実施されます。私たちの方法は、FPHAでラベル付けされたデータを直接使用する場合と比較して、手/オブジェクトの推定誤差を19.5%/ 24.9%削減し、いくつかのベースライン方法よりも優れています。広範な実験により、提案された方法の堅牢性も検証されます。
3D hand-object pose estimation is an important issue to understand the interaction between human and environment. Current hand-object pose estimation methods require detailed 3D labels, which are expensive and labor-intensive. To tackle the problem of data collection, we propose a semi-supervised 3D hand-object pose estimation method with two key techniques: pose dictionary learning and an object-oriented coordinate system. The proposed pose dictionary learning module can distinguish infeasible poses by reconstruction error, enabling unlabeled data to provide supervision signals. The proposed object-oriented coordinate system can make 3D estimations equivariant to the camera perspective. Experiments are conducted on FPHA and HO-3D datasets. Our method reduces estimation error by 19.5% / 24.9% for hands/objects compared to straightforward use of labeled data on FPHA and outperforms several baseline methods. Extensive experiments also validate the robustness of the proposed method.