arXiv reaDer
複数人のポーズ推定のためのローカル-グローバルコンテキスト適応の学習
Learning Local-Global Contextual Adaptation for Multi-Person Pose Estimation
この論文は、ボトムアップ方式での複数人のポーズ推定の問題を研究している。センターオフセット定式化のローカリゼーションの問題が理想的な状況でローカルウィンドウ検索スキームで修正できるという新しく強力な観察により、LOGO-CAPと呼ばれる複数人のポーズ推定アプローチを学習することによって提案します。人間のポーズに対するLOcal-GlObalコンテキスト適応。具体的には、私たちのアプローチは、最初のステップで小さなローカルウィンドウのローカルキーポイント拡張マップ(KEM)からキーポイントアトラクションマップ(KAM)を学習します。これは、その後、コンテキスト適応のためのキーポイントに焦点を合わせたグローバルヒートマップで動的畳み込みカーネルとして扱われ、正確な複数人のポーズ推定。私たちの方法は、1回のフォワードパスでほぼリアルタイムの推論速度でエンドツーエンドでトレーニング可能であり、ボトムアップの人間のポーズ推定のためのCOCOキーポイントベンチマークで最先端のパフォーマンスを取得します。 COCOでトレーニングされたモデルを使用すると、私たちの方法は、挑戦的なOCHumanデータセットで従来技術を大幅に上回ります。
This paper studies the problem of multi-person pose estimation in a bottom-up fashion. With a new and strong observation that the localization issue of the center-offset formulation can be remedied in a local-window search scheme in an ideal situation, we propose a multi-person pose estimation approach, dubbed as LOGO-CAP, by learning the LOcal-GlObal Contextual Adaptation for human Pose. Specifically, our approach learns the keypoint attraction maps (KAMs) from the local keypoints expansion maps (KEMs) in small local windows in the first step, which are subsequently treated as dynamic convolutional kernels on the keypoints-focused global heatmaps for contextual adaptation, achieving accurate multi-person pose estimation. Our method is end-to-end trainable with near real-time inference speed in a single forward pass, obtaining state-of-the-art performance on the COCO keypoint benchmark for bottom-up human pose estimation. With the COCO trained model, our method also outperforms prior arts by a large margin on the challenging OCHuman dataset.
updated: Wed Mar 02 2022 07:42:34 GMT+0000 (UTC)
published: Wed Sep 08 2021 13:15:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト