arXiv reaDer
TokenPose:人間のポーズ推定のためのキーポイントトークンの学習
TokenPose: Learning Keypoint Tokens for Human Pose Estimation
人間の姿勢の推定は、キーポイントを見つけるために、視覚的な手がかりとパーツ間の解剖学的制約に大きく依存しています。ほとんどの既存のCNNベースの方法は視覚的表現でうまく機能しますが、キーポイント間の制約関係を明示的に学習する機能が不足しています。本論文では、人間のポーズ推定のためのトークン表現に基づく新しいアプローチを提案する〜(TokenPose)。詳細には、各キーポイントはトークンとして明示的に埋め込まれ、画像から制約関係と外観の手がかりを同時に学習します。広範な実験により、大小のTokenPoseモデルは、最先端のCNNベースのモデルと同等でありながら、より軽量であることが示されています。具体的には、TokenPose-SとTokenPose-Lは、COCO検証データセットでそれぞれ72.5APと75.8APを達成し、パラメーター(\ downarrow80.6%; \ downarrow 56.8%)とGFLOP(\ downarrow 75.3%; \ downarrow 24.7)を大幅に削減します。 %)。コードは公開されています。
Human pose estimation deeply relies on visual clues and anatomical constraints between parts to locate keypoints. Most existing CNN-based methods do well in visual representation, however, lacking in the ability to explicitly learn the constraint relationships between keypoints. In this paper, we propose a novel approach based on Token representation for human Pose estimation~(TokenPose). In detail, each keypoint is explicitly embedded as a token to simultaneously learn constraint relationships and appearance cues from images. Extensive experiments show that the small and large TokenPose models are on par with state-of-the-art CNN-based counterparts while being more lightweight. Specifically, our TokenPose-S and TokenPose-L achieve 72.5 AP and 75.8 AP on COCO validation dataset respectively, with significant reduction in parameters (\downarrow80.6%; \downarrow 56.8%) and GFLOPs (\downarrow 75.3%; \downarrow 24.7%). Code is publicly available.
updated: Fri Aug 13 2021 15:25:09 GMT+0000 (UTC)
published: Thu Apr 08 2021 05:12:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト