トランスフォーマーは、長期的な依存関係をモデル化する強力な機能を備えているため、3D 人間姿勢推定 (HPE) にトランスフォーマーを導入することに最近関心が高まっています。ただし、既存のトランスフォーマー ベースの方法は、身体の関節を同様に重要な入力として扱い、自己注意メカニズムにおける人間の骨格トポロジーの事前知識を無視します。この問題に取り組むために、このホワイトペーパーでは、3D HPE の不確実性ガイド付き改良を備えたポーズ指向トランスフォーマー (POT) を提案します。具体的には、最初に、人間の骨格トポロジーを明示的に活用するために、POT 用の新しいポーズ指向の自己注意メカニズムと距離関連の位置埋め込みを開発します。ポーズ指向のセルフアテンション メカニズムは、ボディ ジョイント間のトポロジー相互作用を明示的にモデル化しますが、距離関連の位置埋め込みは、ルート ジョイントまでのジョイントの距離をエンコードして、回帰のさまざまな困難を伴うジョイントのグループを区別します。さらに、不確実性に基づくサンプリング戦略と自己注意メカニズムを使用して各関節の推定される不確実性を考慮することにより、特に困難な関節の場合に、POT からの姿勢予測を改善する不確実性に基づく洗練ネットワーク (UGRN) を提示します。広範な実験により、Human3.6M や MPI-INF-3DHP などの 3D HPE ベンチマークでモデル パラメーターを減らした最新の方法よりも、私たちの方法が大幅に優れていることが実証されています。
There has been a recent surge of interest in introducing transformers to 3D human pose estimation (HPE) due to their powerful capabilities in modeling long-term dependencies. However, existing transformer-based methods treat body joints as equally important inputs and ignore the prior knowledge of human skeleton topology in the self-attention mechanism. To tackle this issue, in this paper, we propose a Pose-Oriented Transformer (POT) with uncertainty guided refinement for 3D HPE. Specifically, we first develop novel pose-oriented self-attention mechanism and distance-related position embedding for POT to explicitly exploit the human skeleton topology. The pose-oriented self-attention mechanism explicitly models the topological interactions between body joints, whereas the distance-related position embedding encodes the distance of joints to the root joint to distinguish groups of joints with different difficulties in regression. Furthermore, we present an Uncertainty-Guided Refinement Network (UGRN) to refine pose predictions from POT, especially for the difficult joints, by considering the estimated uncertainty of each joint with uncertainty-guided sampling strategy and self-attention mechanism. Extensive experiments demonstrate that our method significantly outperforms the state-of-the-art methods with reduced model parameters on 3D HPE benchmarks such as Human3.6M and MPI-INF-3DHP