深部オブジェクト検出モデルの顕著な成果にもかかわらず、依然として大きな課題は、大量のトレーニング データが必要であることです。このような現実世界のデータを入手するプロセスは骨の折れる作業であるため、研究者は合成データ生成技術などの新しい研究手段を模索するようになりました。この研究は、事前トレーニングされた安定拡散モデルを微調整することによって合成データセットを生成するためのフレームワークを提示します。次に、合成データセットに手動で注釈が付けられ、さまざまな物体検出モデルのトレーニングに使用されます。これらの検出器は、331 枚の画像からなる実世界のテスト セットで評価され、実世界の画像でトレーニングされたベースライン モデルと比較されます。この研究の結果は、合成データでトレーニングされた物体検出モデルがベースライン モデルと同様に機能することを明らかにしました。果樹園でのリンゴ検出の場合、ベースラインとの平均精度偏差は 0.09 ~ 0.12 の範囲です。この研究は、ディープ モデルのトレーニングのための広範なトレーニング データの収集に代わる実行可能な代替手段として、合成データ生成技術の可能性を示しています。
Despite the notable accomplishments of deep object detection models, a major challenge that persists is the requirement for extensive amounts of training data. The process of procuring such real-world data is a laborious undertaking, which has prompted researchers to explore new avenues of research, such as synthetic data generation techniques. This study presents a framework for the generation of synthetic datasets by fine-tuning pretrained stable diffusion models. The synthetic datasets are then manually annotated and employed for training various object detection models. These detectors are evaluated on a real-world test set of 331 images and compared against a baseline model that was trained on real-world images. The results of this study reveal that the object detection models trained on synthetic data perform similarly to the baseline model. In the context of apple detection in orchards, the average precision deviation with the baseline ranges from 0.09 to 0.12. This study illustrates the potential of synthetic data generation techniques as a viable alternative to the collection of extensive training data for the training of deep models.