arXiv reaDer
複数の3D人物の単眼、1段階、回帰
Monocular, One-stage, Regression of Multiple 3D People
このホワイトペーパーでは、単一のRGB画像からの複数の3D人物の回帰に焦点を当てています。既存のアプローチは、主に多段階パイプラインに従います。このパイプラインは、最初に境界ボックスを持つ人々を検出し、次に3Dボディメッシュを回帰します。対照的に、複数の3D People(ROMPと呼ばれる)に対してすべてのメッシュを1段階で回帰することを提案します。これは、概念的に単純で、境界ボックスがなく、エンドツーエンドの方法でピクセルごとの表現を学習できます。 。私たちの方法は、ボディセンターヒートマップとメッシュパラメータマップを同時に予測します。これらは、ピクセルレベルで3Dボディメッシュを共同で記述することができます。ボディセンターガイドサンプリングプロセスにより、画像内のすべての人のボディメッシュパラメータをメッシュパラメータマップから簡単に抽出できます。このようなきめ細かい表現を備えた1ステージのフレームワークは、複雑なマルチステージプロセスがなく、オクルージョンに対してより堅牢です。最先端の方法と比較して、ROMPは、3DPW、CMU Panoptic、3DOH50Kなどの挑戦的な複数人/閉塞ベンチマークで優れたパフォーマンスを実現します。混雑した/閉塞されたデータセットでの実験は、さまざまなタイプの閉塞下での堅牢性を示しています。また、リリースされたデモコード(https://github.com/Arthur151/ROMP)は、これまでの単眼多人数3Dメッシュ回帰の最初のリアルタイム(30 FPS以上)実装であることも注目に値します。
This paper focuses on the regression of multiple 3D people from a single RGB image. Existing approaches predominantly follow a multi-stage pipeline, which first detects people with the bounding boxes and then regresses their 3D body meshes. In contrast, we propose to Regress all meshes in a One-stage fashion for Multiple 3D People (termed ROMP), which is conceptually simple, bounding box-free, and able to learn per-pixel representation in an end-to-end manner. Our method simultaneously predicts a Body Center heatmap and a Mesh Parameter map, which can jointly describe the 3D body mesh on the pixel level. Through a body-center-guided sampling process, the body mesh parameters of all people in the image can be easily extracted from the Mesh Parameter map. Equipped with such a fine-grained representation, our one-stage framework is free of the complex multi-stage process and more robust to occlusion. Compared with the state-of-the-art methods, ROMP achieves superior performance on the challenging multi-person/occlusion benchmarks, including 3DPW, CMU Panoptic, and 3DOH50K. Experiments on crowded/occluded datasets demonstrate the robustness under various types of occlusion. It is also worth noting that our released demo code ( https://github.com/Arthur151/ROMP ) is the first real-time (over 30 FPS) implementation of monocular multi-person 3D mesh regression to date.
updated: Fri Apr 02 2021 09:12:06 GMT+0000 (UTC)
published: Thu Aug 27 2020 17:21:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト