arXiv reaDer
合成トークンとしての人間のポーズ
Human Pose as Compositional Tokens
人間の姿勢は通常、身体の関節の座標ベクトルまたはそれらのヒートマップの埋め込みによって表されます。データ処理は簡単ですが、体の関節間の依存モデリングがないため、非現実的な姿勢推定が認められます。この論文では、共同依存関係を調査するために、Pose as Compositional Tokens (PCT) という名前の構造化表現を提示します。これは、相互に依存するいくつかの関節を持つ部分構造を特徴付ける M 個の離散トークンによってポーズを表します。構成設計により、低コストで小さな再構成エラーを実現できます。次に、ポーズ推定を分類タスクとしてキャストします。特に、画像から M 個のトークンのカテゴリを予測する分類子を学習します。事前に学習されたデコーダー ネットワークを使用して、それ以上の後処理を行わずにトークンからポーズを復元します。一般的なシナリオでは、既存の方法よりも優れた、または同等のポーズ推定結果を達成し、オクルージョンが発生しても引き続きうまく機能することを示します。これは、実際にはどこにでもあります。コードとモデルは、https://github.com/Gengzigang/PCT で公開されています。
Human pose is typically represented by a coordinate vector of body joints or their heatmap embeddings. While easy for data processing, unrealistic pose estimates are admitted due to the lack of dependency modeling between the body joints. In this paper, we present a structured representation, named Pose as Compositional Tokens (PCT), to explore the joint dependency. It represents a pose by M discrete tokens with each characterizing a sub-structure with several interdependent joints. The compositional design enables it to achieve a small reconstruction error at a low cost. Then we cast pose estimation as a classification task. In particular, we learn a classifier to predict the categories of the M tokens from an image. A pre-learned decoder network is used to recover the pose from the tokens without further post-processing. We show that it achieves better or comparable pose estimation results as the existing methods in general scenarios, yet continues to work well when occlusion occurs, which is ubiquitous in practice. The code and models are publicly available at https://github.com/Gengzigang/PCT.
updated: Tue Mar 21 2023 07:14:18 GMT+0000 (UTC)
published: Tue Mar 21 2023 07:14:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト