近年、大規模なラベル付きデータセットの助けを借りて、人の検出と人間の姿勢の推定が大きく進歩しました。ただし、これらのデータセットには、人間の活動、ポーズ、またはコンテキストの多様性の保証や分析はありませんでした。さらに、プライバシー、法律、安全、および倫理上の懸念により、より多くの人間のデータを収集する能力が制限される場合があります。これらの問題のいくつかを軽減する実世界のデータの新たな代替手段は、合成データです。ただし、合成データジェネレータの作成は非常に困難であり、研究者がその有用性を探ることができません。そのため、シミュレーション対応の3D人間資産、パラメーター化された照明およびカメラシステムを含み、2Dおよび3Dバウンディングボックス、インスタンスおよびセマンティックセグメンテーション、およびCOCOポーズラベルを生成する、人間中心の合成データジェネレーターPeopleSansPeopleをリリースします。 PeopleSansPeopleを使用して、Detectron2 KeypointR-CNNバリアントを使用してベンチマーク合成データトレーニングを実行しました[1]。合成データを使用してネットワークを事前トレーニングし、ターゲットの実世界データを微調整する(COCO-person train [2]の限られたサブセットへの数ショット転送)と、60.37±0.48のキーポイントAPが得られることがわかりました(COCOテスト-dev2017)同じ実際のデータのみでトレーニングされ(キーポイントAP 55.80)、ImageNetで事前トレーニングされた(キーポイントAP 57.50)モデルよりも優れています。この自由に利用できるデータジェネレータは、人間中心のコンピュータビジョンの重要な領域での実際の転移学習へのシミュレーションの新しい分野への幅広い研究を可能にするはずです。
In recent years, person detection and human pose estimation have made great strides, helped by large-scale labeled datasets. However, these datasets had no guarantees or analysis of human activities, poses, or context diversity. Additionally, privacy, legal, safety, and ethical concerns may limit the ability to collect more human data. An emerging alternative to real-world data that alleviates some of these issues is synthetic data. However, creation of synthetic data generators is incredibly challenging and prevents researchers from exploring their usefulness. Therefore, we release a human-centric synthetic data generator PeopleSansPeople which contains simulation-ready 3D human assets, a parameterized lighting and camera system, and generates 2D and 3D bounding box, instance and semantic segmentation, and COCO pose labels. Using PeopleSansPeople, we performed benchmark synthetic data training using a Detectron2 Keypoint R-CNN variant [1]. We found that pre-training a network using synthetic data and fine-tuning on target real-world data (few-shot transfer to limited subsets of COCO-person train [2]) resulted in a keypoint AP of 60.37 ±0.48 (COCO test-dev2017) outperforming models trained with the same real data alone (keypoint AP of 55.80) and pre-trained with ImageNet (keypoint AP of 57.50). This freely-available data generator should enable a wide range of research into the emerging field of simulation to real transfer learning in the critical area of human-centric computer vision.