このホワイトペーパーでは、単一のRGB画像からの複数の3D人物の回帰に焦点を当てています。既存のアプローチは、主に多段階パイプラインに従います。このパイプラインは、最初に境界ボックスを持つ人々を検出し、次に3Dボディメッシュを回帰します。対照的に、複数の3D People(ROMPと呼ばれる)に対してすべてのメッシュを1段階で回帰することを提案します。これは、概念的に単純で、境界ボックスがなく、エンドツーエンドの方法でピクセルごとの表現を学習できます。 。私たちの方法は、ボディセンターヒートマップとメッシュパラメータマップを同時に予測します。これらは、ピクセルレベルで3Dボディメッシュを共同で記述することができます。ボディセンターガイドサンプリングプロセスにより、画像内のすべての人のボディメッシュパラメータをメッシュパラメータマップから簡単に抽出できます。このようなきめ細かい表現を備えた1ステージのフレームワークは、複雑なマルチステージプロセスがなく、オクルージョンに対してより堅牢です。最先端の方法と比較して、ROMPは、3DPW、CMU Panoptic、3DOH50Kなどの挑戦的な複数人/閉塞ベンチマークで優れたパフォーマンスを実現します。混雑した/閉塞されたデータセットでの実験は、さまざまなタイプの閉塞下での堅牢性を示しています。また、リリースされたデモコード(https://github.com/Arthur151/ROMP)は、これまでの単眼多人数3Dメッシュ回帰の最初のリアルタイム(30 FPS以上)実装であることも注目に値します。
This paper focuses on the regression of multiple 3D people from a single RGB image. Existing approaches predominantly follow a multi-stage pipeline, which first detects people with the bounding boxes and then regresses their 3D body meshes. In contrast, we propose to Regress all meshes in a One-stage fashion for Multiple 3D People (termed ROMP), which is conceptually simple, bounding box-free, and able to learn per-pixel representation in an end-to-end manner. Our method simultaneously predicts a Body Center heatmap and a Mesh Parameter map, which can jointly describe the 3D body mesh on the pixel level. Through a body-center-guided sampling process, the body mesh parameters of all people in the image can be easily extracted from the Mesh Parameter map. Equipped with such a fine-grained representation, our one-stage framework is free of the complex multi-stage process and more robust to occlusion. Compared with the state-of-the-art methods, ROMP achieves superior performance on the challenging multi-person/occlusion benchmarks, including 3DPW, CMU Panoptic, and 3DOH50K. Experiments on crowded/occluded datasets demonstrate the robustness under various types of occlusion. It is also worth noting that our released demo code ( https://github.com/Arthur151/ROMP ) is the first real-time (over 30 FPS) implementation of monocular multi-person 3D mesh regression to date.