時間の経過とともに膨大な数の手の画像が生成されるため、教師付きハンド メッシュ推定のためにラベルのない画像から姿勢の知識を解き放つことは、新たな課題ですが、課題となっています。この問題を軽減するために、半教師ありおよび自己教師ありのアプローチが提案されていますが、検出モデルまたは従来の ResNet バックボーンへの依存によって制限されます。この論文では、視覚分類タスクにおけるマスク画像モデリング (MIM) の急速な進歩に触発され、3D ハンド メッシュ パラメーターを回帰するための新しい自己教師あり事前トレーニング戦略を提案します。私たちのアプローチには、ポーズを意識したセマンティッククラストークンを学習するための教師と生徒のフレームワークに擬似キーポイント位置合わせモジュールを含む、統合された複数粒度の戦略が含まれます。詳細な局所性を持つパッチ トークンの場合、MIM 事前トレーニングに基づいて教師と生徒のネットワーク間で自己蒸留方式を採用します。低レベルの回帰タスクをより適切に適合させるために、マルチレベル表現学習用のピクセル再構成タスクを組み込みます。さらに、シンプルなバニラ ビジョン トランスフォーマー (ViT) をバックボーンとして使用して、強力な姿勢推定ベースラインを設計し、回帰用のトークンの後に PyMAF ヘッドを接続します。広範な実験により、HandMIM と呼ばれる私たちの提案されたアプローチが、さまざまなハンド メッシュ推定タスクで強力なパフォーマンスを達成することが実証されました。特に、HandMIM は特別に最適化されたアーキテクチャを上回り、困難な FreiHAND および HO3Dv2 テスト セットでそれぞれ 6.29 mm および 8.00 mm PAVPE (Vertex-Point-Error) を達成し、3D ハンド メッシュ推定に関する新しい最先端の記録を確立しました。
With an enormous number of hand images generated over time, unleashing pose knowledge from unlabeled images for supervised hand mesh estimation is an emerging yet challenging topic. To alleviate this issue, semi-supervised and self-supervised approaches have been proposed, but they are limited by the reliance on detection models or conventional ResNet backbones. In this paper, inspired by the rapid progress of Masked Image Modeling (MIM) in visual classification tasks, we propose a novel self-supervised pre-training strategy for regressing 3D hand mesh parameters. Our approach involves a unified and multi-granularity strategy that includes a pseudo keypoint alignment module in the teacher-student framework for learning pose-aware semantic class tokens. For patch tokens with detailed locality, we adopt a self-distillation manner between teacher and student network based on MIM pre-training. To better fit low-level regression tasks, we incorporate pixel reconstruction tasks for multi-level representation learning. Additionally, we design a strong pose estimation baseline using a simple vanilla vision Transformer (ViT) as the backbone and attach a PyMAF head after tokens for regression. Extensive experiments demonstrate that our proposed approach, named HandMIM, achieves strong performance on various hand mesh estimation tasks. Notably, HandMIM outperforms specially optimized architectures, achieving 6.29mm and 8.00mm PAVPE (Vertex-Point-Error) on challenging FreiHAND and HO3Dv2 test sets, respectively, establishing new state-of-the-art records on 3D hand mesh estimation.