arXiv reaDer
完全にエンドツーエンドのボトムアップの人間の姿勢推定のためのローカル-グローバルコンテキスト適応の学習
Learning Local-Global Contextual Adaptation for Fully End-to-End Bottom-Up Human Pose Estimation
この論文では、LOGO-CAPと呼ばれる、完全にエンドツーエンドで高速なボトムアップの人間のポーズ推定のためのLocal-GlObal ContextualAdaptationを学習する方法を紹介します。これは、姿勢推定の不正確さを欠く、概念的に単純なセンターオフセット定式化に基づいて構築されています。 D.カーネマンによる「考える、速く、遅い」という考えでボトムアップの人間の姿勢推定を再検討するとき、「速いキーポインター」の十分な精度の欠如を修正するために「遅いキーポインター」を導入します。 「遅いキーポインター」を学習する際に、提案されたLOGO-CAPは、2つのモジュールの不確実性に対抗するために、キーポイント拡張マップ(KEM)へのオフセット予測によって最初の「速い」キーポイントを持ち上げます。最初に、ローカルKEM(11x11など)が低次元の特徴マップから抽出されます。提案された畳み込みメッセージパッシングモジュールは、オブジェクトのキーポイント類似性(OKS)損失によって直接監視される、人間の姿勢推定の構造化された出力予測の性質を考慮することにより、ローカルKEMをキーポイントアトラクションマップ(KAM)に「再フォーカス」することを学習します。研修中。次に、マップ間の直接回帰によって計算されたキーポイントヒートマップから、十分に大きな関心領域(97x97など)を使用してグローバルKEMが抽出されます。次に、学習したKAMをカーネルとして使用してグローバルKEMを畳み込むために、ローカル-グローバルコンテキスト適応モジュールが提案されます。この畳み込みは、学習可能なオフセットがポーズに敏感な方法で変形可能で動的な畳み込みをガイドするものとして理解できます。提案された方法は、ほぼリアルタイムの推論速度でエンドツーエンドでトレーニング可能であり、ボトムアップの人間の姿勢推定のためのCOCOキーポイントベンチマークで最先端のパフォーマンスを取得します。 COCOでトレーニングされたモデルを使用すると、LOGO-CAPは、困難なOCHumanデータセットで従来技術を大幅に上回ります。
This paper presents a method of learning Local-GlObal Contextual Adaptation for fully end-to-end and fast bottom-up human Pose estimation, dubbed as LOGO-CAP. It is built on the conceptually simple center-offset formulation that lacks inaccuracy for pose estimation. When revisiting the bottom-up human pose estimation with the thought of "thinking, fast and slow" by D. Kahneman, we introduce a "slow keypointer" to remedy the lack of sufficient accuracy of the "fast keypointer". In learning the "slow keypointer", the proposed LOGO-CAP lifts the initial "fast" keypoints by offset predictions to keypoint expansion maps (KEMs) to counter their uncertainty in two modules. Firstly, the local KEMs (e.g., 11x11) are extracted from a low-dimensional feature map. A proposed convolutional message passing module learns to "re-focus" the local KEMs to the keypoint attraction maps (KAMs) by accounting for the structured output prediction nature of human pose estimation, which is directly supervised by the object keypoint similarity (OKS) loss in training. Secondly, the global KEMs are extracted, with a sufficiently large region-of-interest (e.g., 97x97), from the keypoint heatmaps that are computed by a direct map-to-map regression. Then, a local-global contextual adaptation module is proposed to convolve the global KEMs using the learned KAMs as the kernels. This convolution can be understood as the learnable offsets guided deformable and dynamic convolution in a pose-sensitive way. The proposed method is end-to-end trainable with near real-time inference speed, obtaining state-of-the-art performance on the COCO keypoint benchmark for bottom-up human pose estimation. With the COCO trained model, our LOGO-CAP also outperforms prior arts by a large margin on the challenging OCHuman dataset.
updated: Wed Sep 08 2021 13:15:01 GMT+0000 (UTC)
published: Wed Sep 08 2021 13:15:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト