画像やビデオから人体のポーズや形状を回復するための最先端のモデルをトレーニングするには、対応する注釈を付けたデータセットが必要ですが、これを取得するのは非常に困難で費用がかかります。このホワイトペーパーの目標は、3Dモーションキャプチャ(MoCap)データのポーズを使用して、画像ベースおよびビデオベースの人間のメッシュ回復方法を改善できるかどうかを調査することです。モーションキャプチャデータからの合成レンダリングを使用して画像ベースのモデルを微調整すると、さまざまなポーズ、テクスチャ、背景を提供することで、パフォーマンスを向上させることができます。実際、モデルのバッチ正規化レイヤーを微調整するだけで、大きなゲインを達成できることを示しています。ビデオでのモーションキャプチャデータの使用についてさらに研究し、ポーズパラメータを直接回帰し、マスクされたモデリングを介してトレーニングされるトランスフォーマーモジュールであるPoseBERTを紹介します。これはシンプルで一般的であり、時間情報を活用してビデオベースのモデルに変換するために、最先端の画像ベースのモデルの上にプラグインすることができます。私たちの実験結果は、提案されたアプローチが3DPW、MPI-INF-3DHP、MuPoTS-3D、MCB、AISTなどのさまざまなデータセットで最先端のパフォーマンスに到達することを示しています。テストコードとモデルはまもなく利用可能になります。
Training state-of-the-art models for human body pose and shape recovery from images or videos requires datasets with corresponding annotations that are really hard and expensive to obtain. Our goal in this paper is to study whether poses from 3D Motion Capture (MoCap) data can be used to improve image-based and video-based human mesh recovery methods. We find that fine-tune image-based models with synthetic renderings from MoCap data can increase their performance, by providing them with a wider variety of poses, textures and backgrounds. In fact, we show that simply fine-tuning the batch normalization layers of the model is enough to achieve large gains. We further study the use of MoCap data for video, and introduce PoseBERT, a transformer module that directly regresses the pose parameters and is trained via masked modeling. It is simple, generic and can be plugged on top of any state-of-the-art image-based model in order to transform it in a video-based model leveraging temporal information. Our experimental results show that the proposed approaches reach state-of-the-art performance on various datasets including 3DPW, MPI-INF-3DHP, MuPoTS-3D, MCB and AIST. Test code and models will be available soon.