3D注釈やサイド情報なしで3D人間の姿勢を推定するための教師と学生の学習フレームワークに基づく新しい方法を提案します。この教師なし学習の問題を解決するために、教師ネットワークは、正則化のためにポーズ辞書ベースのモデリングを採用して、物理的にもっともらしい3Dポーズを推定します。教師ネットワークの分解のあいまいさを処理するために、教師ネットワークをトレーニングするために3D回転不変プロパティを促進するサイクル整合性のあるアーキテクチャを提案します。推定精度をさらに向上させるために、学生ネットワークは、3D座標を直接推定する柔軟性を備えた新しいグラフ畳み込みネットワークを採用しています。 3D回転等価プロパティを促進する別のサイクル整合性のあるアーキテクチャを採用して、ジオメトリの整合性を活用し、教師ネットワークからの知識の抽出により、ポーズ推定のパフォーマンスを向上させます。 Human3.6MとMPI-INF-3DHPで広範な実験を行っています。私たちの方法は、最先端の教師なし方法と比較して3D関節予測誤差を11.4%削減し、Human3.6Mのサイド情報を使用する多くの弱教師あり方法よりも優れています。コードはhttps://github.com/sjtuxcx/ITESで入手できます。
We propose a novel method based on teacher-student learning framework for 3D human pose estimation without any 3D annotation or side information. To solve this unsupervised-learning problem, the teacher network adopts pose-dictionary-based modeling for regularization to estimate a physically plausible 3D pose. To handle the decomposition ambiguity in the teacher network, we propose a cycle-consistent architecture promoting a 3D rotation-invariant property to train the teacher network. To further improve the estimation accuracy, the student network adopts a novel graph convolution network for flexibility to directly estimate the 3D coordinates. Another cycle-consistent architecture promoting 3D rotation-equivariant property is adopted to exploit geometry consistency, together with knowledge distillation from the teacher network to improve the pose estimation performance. We conduct extensive experiments on Human3.6M and MPI-INF-3DHP. Our method reduces the 3D joint prediction error by 11.4% compared to state-of-the-art unsupervised methods and also outperforms many weakly-supervised methods that use side information on Human3.6M. Code will be available at https://github.com/sjtuxcx/ITES.