arXiv reaDer
ボトムアップの人間の姿勢推定のためのグローバル リレーション モデリングと改良
Global Relation Modeling and Refinement for Bottom-Up Human Pose Estimation
この論文では、複数人の姿勢推定 (MPPE) におけるボトムアップ パラダイムに関心があります。以前のほとんどのボトムアップ手法は、後処理中にさまざまな身体部分を識別するためにインスタンスの関係を考慮しようとしましたが、特徴学習プロセスでインスタンスまたは環境間の関係をモデル化することを無視していました。さらに、ほとんどの既存の作品は、アップサンプリングとダウンサンプリングの操作を採用しています。サンプリング プロセス中に、ソース フィーチャとのずれの問題が発生し、モデルによって学習されたキーポイント フィーチャに偏差が生じます。上記の制限を克服するために、ボトムアップの人間の姿勢推定のための畳み込みニューラル ネットワークを提案します。 (i) Global Relation Modeling (GRM) モジュールは、特徴学習プロセスで複数の段階の特徴を融合することにより、画像の領域間の関係 (環境コンテキスト、インスタンスのインタラクティブ情報など) をグローバルに学習します。これは、空間およびチャネル次元での適応性の達成に焦点を当てた空間チャネル アテンション メカニズムと組み合わされます。 (ii) マルチブランチ フィーチャ アライン (MFA) モジュールは、複数のブランチからのフィーチャを集約して、融合フィーチャを整列させ、洗練されたローカル キーポイント表現を取得します。私たちのモデルには、ローカル地域からグローバル地域までのさまざまな粒度に焦点を当てる機能があり、複数人の姿勢推定のパフォーマンスを大幅に向上させます。 COCO および CrowdPose データセットに関する結果は、それが複数人の姿勢推定の効率的なフレームワークであることを示しています。
In this paper, we concern on the bottom-up paradigm in multi-person pose estimation (MPPE). Most previous bottom-up methods try to consider the relation of instances to identify different body parts during the post processing, while ignoring to model the relation among instances or environment in the feature learning process. In addition, most existing works adopt the operations of upsampling and downsampling. During the sampling process, there will be a problem of misalignment with the source features, resulting in deviations in the keypoint features learned by the model. To overcome the above limitations, we propose a convolutional neural network for bottom-up human pose estimation. It invovles two basic modules: (i) Global Relation Modeling (GRM) module globally learns relation (e.g., environment context, instance interactive information) among region of image by fusing multiple stages features in the feature learning process. It combines with the spatial-channel attention mechanism, which focuses on achieving adaptability in spatial and channel dimensions. (ii) Multi-branch Feature Align (MFA) module aggregates features from multiple branches to align fused feature and obtain refined local keypoint representation. Our model has the ability to focus on different granularity from local to global regions, which significantly boosts the performance of the multi-person pose estimation. Our results on the COCO and CrowdPose datasets demonstrate that it is an efficient framework for multi-person pose estimation.
updated: Mon Mar 27 2023 02:54:08 GMT+0000 (UTC)
published: Mon Mar 27 2023 02:54:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト