Sim2real transfer learning for 3D human pose estimation: motion to the rescue
 合成視覚データは、プライバシーとバイアスに関する倫理的問題を回避しながら、実質的に無限の多様性と豊富なラベルを提供できます。ただし、多くのタスクでは、合成データでトレーニングされた現在のモデルは、実際のデータへの一般化が不十分です。学習ベースのアプローチは、実際のトレーニングデータが与えられた場合に合理的に実行されるため、3Dの人間の姿勢推定のタスクは、このsim2real問題の特に興味深い例です。この論文では、合成RGB画像でトレーニングするとパフォーマンスが低下する標準のニューラルネットワークアプローチが、特にオプティカルフローと2Dのモーションとして、人のモーションに関するキューを抽出するためにデータを前処理すると、パフォーマンスが向上することを示しますキーポイント。そのため、ビデオが利用可能な場合、sim2realのギャップを埋めるための簡単な方法がモーションであることが示唆されました。 3Dポーズ推定の最も困難な最新のベンチマークであるWildデータセットの3D Posesで評価します。トレーニングのみにもかかわらず、実際の3Dシーケンスでトレーニングされた最先端の方法と同等の完全な3Dメッシュ回復を示します。 SURREALデータセットからの合成人間について。
Synthetic visual data can provide practically infinite diversity and rich labels, while avoiding ethical issues with privacy and bias. However, for many tasks, current models trained on synthetic data generalize poorly to real data. The task of 3D human pose estimation is a particularly interesting example of this sim2real problem, because learning-based approaches perform reasonably well given real training data, yet labeled 3D poses are extremely difficult to obtain in the wild, limiting scalability. In this paper, we show that standard neural-network approaches, which perform poorly when trained on synthetic RGB images, can perform well when the data is pre-processed to extract cues about the person's motion, notably as optical flow and the motion of 2D keypoints. Therefore, our results suggest that motion can be a simple way to bridge a sim2real gap when video is available. We evaluate on the 3D Poses in the Wild dataset, the most challenging modern benchmark for 3D pose estimation, where we show full 3D mesh recovery that is on par with state-of-the-art methods trained on real 3D sequences, despite training only on synthetic humans from the SURREAL dataset.
updated: Thu Nov 14 2019 15:36:28 GMT+0000 (UTC)
published: Thu Jul 04 2019 17:27:18 GMT+0000 (UTC)
