人体部分のセグメンテーションとは、各身体部分のセマンティックセグメンテーションマスクを予測するタスクを指します。完全に監視された身体部分のセグメンテーション方法は、優れたパフォーマンスを実現しますが、トレーニング用のパーツマスクに注釈を付けるには膨大な労力が必要です。限られた数のパーツマスク注釈に必要な高い注釈コストとは対照的に、ポーズや全身マスクなどの弱いラベルが多数存在し、関連情報が含まれています。既存の弱いラベルを使用する可能性に動機付けられて、最初の弱く監視された身体部分セグメンテーションフレームワークを提案します。中心的なアイデアは、最初にキーポイントなどのまばらな弱いラベルを体の部分マスクの初期推定値に変換し、次に部分マスクの予測を繰り返し改良することです。ポーズから推定された最初のパーツマスクを「パーツプライア」と名付けます。十分な追加の弱いラベルを使用すると、弱教師ありフレームワークは、Pascal-Person-Partデータセットで完全教師あり方法(63.6%mIoU)と同等のパフォーマンス(62.0%mIoU)を実現します。さらに、拡張された半教師あり設定では、提案されたフレームワークは最先端の方法よりも優れています。さらに、提案されたフレームワークを、顔の解析など、他のキーポイントで監視されたパーツセグメンテーションタスクに拡張します。
Human body part segmentation refers to the task of predicting the semantic segmentation mask for each body part. Fully supervised body part segmentation methods achieve good performances but require an enormous amount of effort to annotate part masks for training. In contrast to high annotation costs needed for a limited number of part mask annotations, a large number of weak labels such as poses and full body masks already exist and contain relevant information. Motivated by the possibility of using existing weak labels, we propose the first weakly supervised body part segmentation framework. The core idea is first converting the sparse weak labels such as keypoints to the initial estimate of body part masks, and then iteratively refine the part mask predictions. We name the initial part masks estimated from poses the "part priors." With sufficient extra weak labels, our weakly supervised framework achieves a comparable performance (62.0% mIoU) to the fully supervised method (63.6% mIoU) on the Pascal-Person-Part dataset. Furthermore, in the extended semi-supervised setting, the proposed framework outperforms the state-of-art methods. Moreover, we extend our proposed framework to other keypoint-supervised part segmentation tasks such as face parsing.