arXiv reaDer
複数人のポーズ回帰のための品質を意識した表現の学習
Learning Quality-aware Representation for Multi-person Pose Regression
既成の単一ステージの複数人のポーズ回帰法は、一般に、インスタンススコア(つまり、インスタンスのローカリゼーションの信頼性)を利用して、ポーズ候補を選択するためのポーズ品質を示します。既存のパラダイムには2つのギャップがあると考えられます:〜1)インスタンススコアはポーズ回帰の品質と十分に相互に関連していません。〜2)インスタンススコアの予測に使用されるインスタンス特徴表現は、明示的にエンコードされていませんポーズ回帰の品質を表す妥当なスコアを予測するための構造的なポーズ情報。前述の問題に対処するために、ポーズ回帰の品質を意識した表現を学習することを提案します。具体的には、最初のギャップでは、前のインスタンスの信頼ラベル(たとえば、離散1,0またはガウス表現)を使用して人物インスタンスの位置と信頼を示す代わりに、まず、ポーズを統合する一貫性のあるインスタンス表現(CIR)を導入します。インスタンスの回帰品質スコアと、インスタンススコアとポーズ回帰品質の間の不一致を調整するためのピクセル単位のスコアマップへの背景の信頼度。 2番目のギャップを埋めるために、各キーポイントの位置情報とセマンティック情報をエンコードするKeypoint Query Encoding(KQE)と、予測された構造ポーズ情報を明示的にエンコードするPose Query Encoding(PQE)を含むQuery Encoding Module(QEM)をさらに紹介します。一貫性のあるインスタンス表現(CIR)によりよく適合します。提案されたコンポーネントを使用することにより、上記のギャップを大幅に軽減します。私たちの方法は、以前の単一段階の回帰ベースのボトムアップ方法よりも優れており、MSCOCOテスト開発セットで71.7APの最先端の結果を達成します。
Off-the-shelf single-stage multi-person pose regression methods generally leverage the instance score (i.e., confidence of the instance localization) to indicate the pose quality for selecting the pose candidates. We consider that there are two gaps involved in existing paradigm:~1) The instance score is not well interrelated with the pose regression quality.~2) The instance feature representation, which is used for predicting the instance score, does not explicitly encode the structural pose information to predict the reasonable score that represents pose regression quality. To address the aforementioned issues, we propose to learn the pose regression quality-aware representation. Concretely, for the first gap, instead of using the previous instance confidence label (e.g., discrete 1,0 or Gaussian representation) to denote the position and confidence for person instance, we firstly introduce the Consistent Instance Representation (CIR) that unifies the pose regression quality score of instance and the confidence of background into a pixel-wise score map to calibrates the inconsistency between instance score and pose regression quality. To fill the second gap, we further present the Query Encoding Module (QEM) including the Keypoint Query Encoding (KQE) to encode the positional and semantic information for each keypoint and the Pose Query Encoding (PQE) which explicitly encodes the predicted structural pose information to better fit the Consistent Instance Representation (CIR). By using the proposed components, we significantly alleviate the above gaps. Our method outperforms previous single-stage regression-based even bottom-up methods and achieves the state-of-the-art result of 71.7 AP on MS COCO test-dev set.
updated: Tue Jan 04 2022 11:10:28 GMT+0000 (UTC)
published: Tue Jan 04 2022 11:10:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト