arXiv reaDer
自己教師あり学習によるモデルベースの3D手の再構成
Model-based 3D Hand Reconstruction via Self-Supervised Learning
シングルビューRGB画像から3D手を再構築することは、さまざまな手の構成と深さのあいまいさのために困難です。単眼画像から3D手を確実に再構築するために、ほとんどの最先端の方法は、トレーニング段階で3D注釈に大きく依存していますが、3D注釈を取得するにはコストがかかります。ラベル付けされたトレーニングデータへの依存を軽減するために、ポーズ、形状、テクスチャ、およびカメラの視点を共同で推定できる自己監視型3D手の再構成ネットワークであるS2HANDを提案します。具体的には、簡単にアクセスできる2Dで検出されたキーポイントを介して、入力画像から幾何学的な手がかりを取得します。これらのノイズの多い幾何学的手がかりから正確な手の再構成モデルを学習するために、2D表現と3D表現の間の一貫性を利用し、ニューラルネットワークの出力を合理化するための一連の新しい損失を提案します。初めて、手動の注釈に依存せずに正確な3D手の再構成ネットワークをトレーニングする可能性を示します。私たちの実験は、提案された方法が、より少ない監視データを使用しながら、最近の完全に監視された方法と同等のパフォーマンスを達成することを示しています。
Reconstructing a 3D hand from a single-view RGB image is challenging due to various hand configurations and depth ambiguity. To reliably reconstruct a 3D hand from a monocular image, most state-of-the-art methods heavily rely on 3D annotations at the training stage, but obtaining 3D annotations is expensive. To alleviate reliance on labeled training data, we propose S2HAND, a self-supervised 3D hand reconstruction network that can jointly estimate pose, shape, texture, and the camera viewpoint. Specifically, we obtain geometric cues from the input image through easily accessible 2D detected keypoints. To learn an accurate hand reconstruction model from these noisy geometric cues, we utilize the consistency between 2D and 3D representations and propose a set of novel losses to rationalize outputs of the neural network. For the first time, we demonstrate the feasibility of training an accurate 3D hand reconstruction network without relying on manual annotations. Our experiments show that the proposed method achieves comparable performance with recent fully-supervised methods while using fewer supervision data.
updated: Mon Mar 22 2021 10:12:43 GMT+0000 (UTC)
published: Mon Mar 22 2021 10:12:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト