3D 手の姿勢推定の最近の進歩は有望な結果を示していますが、その有効性は主に大規模な注釈付きデータセットの利用に依存しており、その作成には労力とコストがかかるプロセスが伴います。ラベルを大量に消費する制限を軽減するために、マルチビューの擬似 2D ラベルからシングルビューの手姿勢推定器を学習する自己教師あり学習フレームワーク HaMuCo を提案します。ただし、自己教師あり学習の主な課題の 1 つは、ノイズの多いラベルの存在と、複数のビューからの「集団思考」効果です。これらの問題を克服するために、ビュー間の相関機能を利用し、マルチビューの一貫性を強化して共同学習を実現することにより、単一ビューの推定量を抽出するクロスビュー対話ネットワークを導入します。シングルビュー推定器とクロスビュー インタラクション ネットワークは両方とも、エンドツーエンドの方法で共同でトレーニングされます。広範な実験により、私たちの方法がマルチビューの自己教師付き手の姿勢推定において最先端のパフォーマンスを達成できることが示されています。さらに、提案されたクロスビューインタラクションネットワークは、マルチビュー入力からの手姿勢推定にも適用でき、同じ設定の下で以前の方法よりも優れたパフォーマンスを発揮します。
Recent advancements in 3D hand pose estimation have shown promising results, but its effectiveness has primarily relied on the availability of large-scale annotated datasets, the creation of which is a laborious and costly process. To alleviate the label-hungry limitation, we propose a self-supervised learning framework, HaMuCo, that learns a single-view hand pose estimator from multi-view pseudo 2D labels. However, one of the main challenges of self-supervised learning is the presence of noisy labels and the ``groupthink'' effect from multiple views. To overcome these issues, we introduce a cross-view interaction network that distills the single-view estimator by utilizing the cross-view correlated features and enforcing multi-view consistency to achieve collaborative learning. Both the single-view estimator and the cross-view interaction network are trained jointly in an end-to-end manner. Extensive experiments show that our method can achieve state-of-the-art performance on multi-view self-supervised hand pose estimation. Furthermore, the proposed cross-view interaction network can also be applied to hand pose estimation from multi-view input and outperforms previous methods under the same settings.