arXiv reaDer
より多くのデータ効率と一般化可能な果物の検出のために3D作物モデルとGANを参加させる
Enlisting 3D Crop Models and GANs for More Data Efficient and Generalizable Fruit Detection
高性能と一般化可能性を実現するために実世界のニューラルネットワークモデルをトレーニングするには、通常、さまざまなバリエーションにまたがるかなりの量のラベル付きデータが必要です。このデータラベル付けプロセスは、労力とコストの両方を要する可能性があります。望ましい予測パフォーマンスを達成するために、トレーニングされたモデルは通常、データ分布がトレーニングデータセットに類似しているドメインに適用されます。ただし、多くの農業機械学習の問題では、トレーニングデータセットは、成長期の特定の期間中に特定の場所で収集されます。農業システムは、作物の種類、栽培品種、管理、季節的な成長のダイナミクス、照明条件、センサーの種類などの点でかなりのばらつきを示すため、1つのデータセットからトレーニングされたモデルは、ドメイン間で十分に一般化されないことがよくあります。農業でよりデータ効率が高く一般化可能なニューラルネットワークモデルを可能にするために、合成3D作物モデルドメインから実世界の作物ドメインにフォトリアリスティックな農業画像を生成する方法を提案します。この方法では、意味的に制約されたGAN(生成的敵対的ネットワーク)を使用して、果実の位置と形状を保持します。ベースラインのCycleGANメソッドは、視覚的にリアルなターゲットドメイン画像を生成しますが、フルーツの位置を適切に維持している間は、フルーツの位置情報を保持しません。ブドウ園のブドウの昼と夜の画像での画像生成の結果は、私たちのネットワークの視覚的出力がベースラインネットワークと比較してはるかに優れていることを示しています。ブドウ園のブドウ検出タスクでのインクリメンタルトレーニング実験は、私たちの方法から生成された画像がドメイン適応プロセスを大幅にスピードアップし、特定の数のラベル付き画像のパフォーマンスを向上させ(つまり、データ効率)、ラベル付け要件を減らすことができることを示しています。
Training real-world neural network models to achieve high performance and generalizability typically requires a substantial amount of labeled data, spanning a broad range of variation. This data-labeling process can be both labor and cost intensive. To achieve desirable predictive performance, a trained model is typically applied into a domain where the data distribution is similar to the training dataset. However, for many agricultural machine learning problems, training datasets are collected at a specific location, during a specific period in time of the growing season. Since agricultural systems exhibit substantial variability in terms of crop type, cultivar, management, seasonal growth dynamics, lighting condition, sensor type, etc, a model trained from one dataset often does not generalize well across domains. To enable more data efficient and generalizable neural network models in agriculture, we propose a method that generates photorealistic agricultural images from a synthetic 3D crop model domain into real world crop domains. The method uses a semantically constrained GAN (generative adversarial network) to preserve the fruit position and geometry. We observe that a baseline CycleGAN method generates visually realistic target domain images but does not preserve fruit position information while our method maintains fruit positions well. Image generation results in vineyard grape day and night images show the visual outputs of our network are much better compared to a baseline network. Incremental training experiments in vineyard grape detection tasks show that the images generated from our method can significantly speed the domain adaption process, increase performance for a given number of labeled images (i.e. data efficiency), and decrease labeling requirements.
updated: Mon Aug 30 2021 16:11:59 GMT+0000 (UTC)
published: Mon Aug 30 2021 16:11:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト