arXiv reaDer
対照学習による単眼RGBからの自己教師あり3D手のポーズ推定
Self-Supervised 3D Hand Pose Estimation from monocular RGB via Contrastive Learning
手の姿勢を推定するための正確な 3D 注釈付きデータを取得することは、非常に難しい問題です。これには通常、複雑なマルチカメラのセットアップと制御された条件が必要です。これにより、完全に制約のない設定に橋渡しするのが難しいドメインギャップが作成されます。画像分類タスクでの対照学習の成功に後押しされて、3D手のポーズ推定の構造化回帰タスクのための新しい自己教師あり方法を提案します。対照学習は、損失定式化を介した表現学習の目的でラベルなしデータを利用します。これにより、学習された特徴表現が任意の画像変換で不変になるようになります。 3Dの手のポーズの推定では、色のジッターなどの外観の変換に対して不変性を持たせることも望ましいです。ただし、このタスクでは、回転や平行移動などのアフィン変換での同変が必要です。この問題に対処するために、同変の対照的な目的を提案し、3D手のポーズ推定のコンテキストでその有効性を示します。不変および同変の対照的な目的の影響を実験的に調査し、同変の特徴を学習することで、3D手のポーズ推定のタスクをより適切に表現できることを示します。さらに、追加のラベルなしデータでトレーニングされた標準のResNet-152が、FreiHANDのPA-EPEで7.6%の改善を達成し、タスク固有の特殊なアーキテクチャなしで最先端のパフォーマンスを実現することを示します。
Acquiring accurate 3D annotated data for hand pose estimation is a notoriously difficult problem. This typically requires complex multi-camera setups and controlled conditions, which in turn creates a domain gap that is hard to bridge to fully unconstrained settings. Encouraged by the success of contrastive learning on image classification tasks, we propose a new self-supervised method for the structured regression task of 3D hand pose estimation. Contrastive learning makes use of unlabeled data for the purpose of representation learning via a loss formulation that encourages the learned feature representations to be invariant under any image transformation. For 3D hand pose estimation, it too is desirable to have invariance to appearance transformation such as color jitter. However, the task requires equivariance under affine transformations, such as rotation and translation. To address this issue, we propose an equivariant contrastive objective and demonstrate its effectiveness in the context of 3D hand pose estimation. We experimentally investigate the impact of invariant and equivariant contrastive objectives and show that learning equivariant features leads to better representations for the task of 3D hand pose estimation. Furthermore, we show that a standard ResNet-152, trained on additional unlabeled data, attains an improvement of 7.6% in PA-EPE on FreiHAND and thus achieves state-of-the-art performance without any task specific, specialized architectures.
updated: Thu Jun 10 2021 17:48:57 GMT+0000 (UTC)
published: Thu Jun 10 2021 17:48:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト