単一のRGB画像からの複数人の3Dポーズの復元は、固有の2D-3D深度のあいまいさ、人間のオクルージョン、および体の切り詰めのために、深刻な悪条件の問題です。これらの問題に取り組むために、最近の作品は、異なる人々を同時に推論することによって有望な結果を示しています。ただし、ほとんどの場合、これはペアごとの人の相互作用のみを考慮することによって行われるため、長距離の相互作用をキャプチャできる全体的なシーン表現が妨げられます。これは、シーン内のすべての人を共同で処理するアプローチによって対処されますが、個人の1人を参照として定義し、事前定義された人の順序を定義する必要があり、この選択に敏感です。この論文では、これらの両方の制限を克服し、入力順序とは無関係に長距離の相互作用をキャプチャする複数人の3Dポーズ推定のアプローチを提案します。この目的のために、既製の検出器によって推定された潜在的に破損した初期3Dポーズをうまく洗練する残差のような順列不変ネットワークを構築します。残差関数は、Set Transformerブロックを介して学習されます。このブロックは、順序や数に関係なく、すべての初期ポーズ間の相互作用をモデル化します。徹底的な評価は、私たちのアプローチが最初に推定された3Dポーズのパフォーマンスを大幅に向上させ、標準化されたベンチマークで最先端の結果を達成できることを示しています。さらに、提案されたモジュールは計算効率の高い方法で機能し、複数の人のシーンで3Dポーズ検出器のドロップイン補完として使用できる可能性があります。
The recovery of multi-person 3D poses from a single RGB image is a severely ill-conditioned problem due to the inherent 2D-3D depth ambiguity, inter-person occlusions, and body truncations. To tackle these issues, recent works have shown promising results by simultaneously reasoning for different people. However, in most cases this is done by only considering pairwise person interactions, hindering thus a holistic scene representation able to capture long-range interactions. This is addressed by approaches that jointly process all people in the scene, although they require defining one of the individuals as a reference and a pre-defined person ordering, being sensitive to this choice. In this paper, we overcome both these limitations, and we propose an approach for multi-person 3D pose estimation that captures long-range interactions independently of the input order. For this purpose, we build a residual-like permutation-invariant network that successfully refines potentially corrupted initial 3D poses estimated by an off-the-shelf detector. The residual function is learned via Set Transformer blocks, that model the interactions among all initial poses, no matter their ordering or number. A thorough evaluation demonstrates that our approach is able to boost the performance of the initially estimated 3D poses by large margins, achieving state-of-the-art results on standardized benchmarks. Additionally, the proposed module works in a computationally efficient manner and can be potentially used as a drop-in complement for any 3D pose detector in multi-people scenes.