この研究では、統合検出モデル、Swin-transformer-YOLOv5 または Swin-T-YOLOv5 が、YOLOv5 と Swin-transformer の両方の利点を継承するために、リアルタイムのワインブドウ房検出のために提案されました。調査は、2019 年 7 月から 9 月にかけて、シャルドネ (常に白いベリーの皮) とメルロー (未熟なときは白または白と赤のミックス ベリーの皮、成熟すると赤) の 2 つの異なるブドウ品種で実施されました。 Swin-T の優位性を検証するには-YOLOv5、そのパフォーマンスは、Faster R-CNN、YOLOv3、YOLOv4、YOLOv5 など、一般的に使用されている/競合するオブジェクト検出器と比較されました。すべてのモデルは、2 つの異なる気象条件 (晴れと曇り)、2 つの異なる果実成熟段階 (未成熟と成熟)、および 3 つの異なる日光の方向/強度 (朝、昼、午後) を含むさまざまなテスト条件下で評価され、包括的な比較が行われました。 .さらに、Swin-T-YOLOv5 によって予測されたブドウの房の数は、注釈プロセス中の現場での手動カウントと手動ラベリングの両方を含むグラウンド トゥルース値とさらに比較されました。結果は、提案された Swin-T-YOLOv5 が、天候が曇りの場合、平均平均精度 (mAP) の最大 97% と F1 スコアの 0.89 で、ブドウ房検出の他のすべての研究モデルよりも優れていることを示しました。このmAPは、Faster R-CNN、YOLOv3、YOLOv4、YOLOv5よりもそれぞれ約44%、18%、14%、4%大きかった。 Swin-T-YOLOv5 は、未熟なベリーを検出すると、mAP が約 40%、5%、3%、および 1% 大きくなり、mAP (90%) と F1 スコア (0.82) が最も低くなりました。さらに、予測をグラウンド トゥルースと比較すると、Swin-T-YOLOv5 はシャルドネ品種でより優れたパフォーマンスを発揮し、最大 0.91 の R2 と 2.36 の二乗平均平方根誤差 (RMSE) を達成しました。ただし、R2 の 0.70 と RMSE の 3.30 までしか達成されず、メルロー品種ではパフォーマンスが低下しました。
In this research, an integrated detection model, Swin-transformer-YOLOv5 or Swin-T-YOLOv5, was proposed for real-time wine grape bunch detection to inherit the advantages from both YOLOv5 and Swin-transformer. The research was conducted on two different grape varieties of Chardonnay (always white berry skin) and Merlot (white or white-red mix berry skin when immature; red when matured) from July to September in 2019. To verify the superiority of Swin-T-YOLOv5, its performance was compared against several commonly used/competitive object detectors, including Faster R-CNN, YOLOv3, YOLOv4, and YOLOv5. All models were assessed under different test conditions, including two different weather conditions (sunny and cloudy), two different berry maturity stages (immature and mature), and three different sunlight directions/intensities (morning, noon, and afternoon) for a comprehensive comparison. Additionally, the predicted number of grape bunches by Swin-T-YOLOv5 was further compared with ground truth values, including both in-field manual counting and manual labeling during the annotation process. Results showed that the proposed Swin-T-YOLOv5 outperformed all other studied models for grape bunch detection, with up to 97% of mean Average Precision (mAP) and 0.89 of F1-score when the weather was cloudy. This mAP was approximately 44%, 18%, 14%, and 4% greater than Faster R-CNN, YOLOv3, YOLOv4, and YOLOv5, respectively. Swin-T-YOLOv5 achieved its lowest mAP (90%) and F1-score (0.82) when detecting immature berries, where the mAP was approximately 40%, 5%, 3%, and 1% greater than the same. Furthermore, Swin-T-YOLOv5 performed better on Chardonnay variety with achieved up to 0.91 of R2 and 2.36 root mean square error (RMSE) when comparing the predictions with ground truth. However, it underperformed on Merlot variety with achieved only up to 0.70 of R2 and 3.30 of RMSE.