単眼画像から人間の3Dポーズを推定するための最高のパフォーマンスの方法には、大量のインザワイルド2Dおよび制御された3Dポーズ注釈付きデータセットが必要です。この注釈の依存関係を減らすために、3Dの人間の姿勢回帰を導く追加の弱い監視信号として、人間の動きの注釈のない、キャリブレーションされていないが同期されたマルチビュービデオからのポーズ情報の類似性を利用する、マルチビュー一貫した半教師あり学習(MCSS)フレームワークを提案します。私たちのフレームワークは、マルチビュービデオの時間的関係に基づいたハードネガティブマイニングを適用して、マルチビューの一貫したポーズ埋め込みに到達します。限られた3Dポーズアノテーションを使用して共同でトレーニングすると、このアプローチではベースラインが25%改善され、最先端のネットワークが8.7%改善されます。最後に、重要なことは、学習した埋め込みの利点を示し、一般に利用可能な2つの一般的なマルチビュー人間ポーズデータセット、Human 3.6MおよびMPI-INF-3DHPでビュー不変ポーズ検索ベンチマークを確立して、将来の研究を促進することです。
The best performing methods for 3D human pose estimation from monocular images require large amounts of in-the-wild 2D and controlled 3D pose annotated datasets which are costly and require sophisticated systems to acquire. To reduce this annotation dependency, we propose Multiview-Consistent Semi Supervised Learning (MCSS) framework that utilizes similarity in pose information from unannotated, uncalibrated but synchronized multi-view videos of human motions as additional weak supervision signal to guide 3D human pose regression. Our framework applies hard-negative mining based on temporal relations in multi-view videos to arrive at a multi-view consistent pose embedding. When jointly trained with limited 3D pose annotations, our approach improves the baseline by 25% and state-of-the-art by 8.7%, whilst using substantially smaller networks. Lastly, but importantly, we demonstrate the advantages of the learned embedding and establish view-invariant pose retrieval benchmarks on two popular, publicly available multi-view human pose datasets, Human 3.6M and MPI-INF-3DHP, to facilitate future research.