PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model
効率的なシングルショットモデルを使用して、複数人の画像内の人々のポーズ推定とインスタンスセグメンテーションのタスクのためのボックスなしのボトムアップアプローチを提示します。提案されたPersonLabモデルは、パーツベースのモデリングを使用して、セマンティックレベルの推論とオブジェクトとパーツの関連付けの両方に取り組んでいます。このモデルでは、個々のキーポイントを検出し、それらの相対的な変位を予測することを学習する畳み込みネットワークを採用しており、キーポイントを人物のポーズインスタンスにグループ化できます。さらに、セマンティックな人物のピクセルを対応する人物のインスタンスに関連付けて、インスタンスレベルの人物のセグメンテーションを配信できる、パーツ誘導の幾何学的埋め込み記述子を提案します。私たちのシステムは完全な畳み込みアーキテクチャに基づいており、シーンに存在する人の数に本質的に依存しないランタイムで効率的な推論を可能にします。 COCOデータのみでトレーニングされたシステムは、シングルスケール推論を使用して0.665、マルチスケール推論を使用して0.687のCOCO test-devキーポイント平均精度を達成し、以前のすべてのボトムアップポーズ推定システムよりも大幅に優れています。また、COCOインスタンスセグメンテーションタスクで個人クラスの競合結果を報告する最初のボトムアップ方式であり、個人カテゴリの平均精度0.417を達成しています。
We present a box-free bottom-up approach for the tasks of pose estimation and instance segmentation of people in multi-person images using an efficient single-shot model. The proposed PersonLab model tackles both semantic-level reasoning and object-part associations using part-based modeling. Our model employs a convolutional network which learns to detect individual keypoints and predict their relative displacements, allowing us to group keypoints into person pose instances. Further, we propose a part-induced geometric embedding descriptor which allows us to associate semantic person pixels with their corresponding person instance, delivering instance-level person segmentations. Our system is based on a fully-convolutional architecture and allows for efficient inference, with runtime essentially independent of the number of people present in the scene. Trained on COCO data alone, our system achieves COCO test-dev keypoint average precision of 0.665 using single-scale inference and 0.687 using multi-scale inference, significantly outperforming all previous bottom-up pose estimation systems. We are also the first bottom-up method to report competitive results for the person class in the COCO instance segmentation task, achieving a person category average precision of 0.417.
updated: Thu Mar 22 2018 04:31:02 GMT+0000 (UTC)
published: Thu Mar 22 2018 04:31:02 GMT+0000 (UTC)
