この論文では、挑戦的な複数人の3Dポーズ推定問題に取り組むための新しい分布認識シングルステージ(DAS)モデルを提示します。既存のトップダウンおよびボトムアップの方法とは異なり、提案されたDASモデルは、1パス方式で3Dカメラ空間内の人物の位置とそれに対応する体の関節を同時にローカライズします。これにより、パイプラインが簡素化され、効率が向上します。さらに、DASは、以前の作業のように単純なラプラシアンまたはガウスの仮定を行うのではなく、位置の回帰のために体の関節の真の分布を学習します。これにより、モデル予測に貴重な事前確率が提供されるため、回帰ベースのスキームが強化され、ボリュームベースのスキームとの競争力のあるパフォーマンスが実現します。さらに、DASは再帰的更新戦略を利用して回帰ターゲットに段階的にアプローチし、最適化の難しさを軽減し、回帰パフォーマンスをさらに向上させます。 DASは、完全な畳み込みニューラルネットワークとエンドツーエンドの学習可能で実装されます。ベンチマークCMUPanopticおよびMuPoTS-3Dでの包括的な実験は、提案されたDASモデルの優れた効率、特に以前の最高のモデルの1.5倍の高速化、および複数人の3Dポーズ推定のための最先端の精度を示しています。
In this paper, we present a novel Distribution-Aware Single-stage (DAS) model for tackling the challenging multi-person 3D pose estimation problem. Different from existing top-down and bottom-up methods, the proposed DAS model simultaneously localizes person positions and their corresponding body joints in the 3D camera space in a one-pass manner. This leads to a simplified pipeline with enhanced efficiency. In addition, DAS learns the true distribution of body joints for the regression of their positions, rather than making a simple Laplacian or Gaussian assumption as previous works. This provides valuable priors for model prediction and thus boosts the regression-based scheme to achieve competitive performance with volumetric-base ones. Moreover, DAS exploits a recursive update strategy for progressively approaching to regression target, alleviating the optimization difficulty and further lifting the regression performance. DAS is implemented with a fully Convolutional Neural Network and end-to-end learnable. Comprehensive experiments on benchmarks CMU Panoptic and MuPoTS-3D demonstrate the superior efficiency of the proposed DAS model, specifically 1.5x speedup over previous best model, and its stat-of-the-art accuracy for multi-person 3D pose estimation.