arXiv reaDer
発展途上国における画像ベースの果物品質評価のための促進された機械学習
Facilitated machine learning for image-based fruit quality assessment in developing countries
自動画像分類は、食品科学における教師あり機械学習の一般的なタスクです。一例は、果物の外部品質または熟度の画像ベースの分類です。この目的のために、通常、深い畳み込みニューラルネットワーク(CNN)が使用されます。これらのモデルは通常、多数のラベル付きトレーニングサンプルと強化された計算リソースを必要とします。市販の果物選別ラインはこれらの要件を容易に満たしますが、機械学習アプローチの使用は、特に発展途上国の小規模農家にとって、これらの前提条件によって妨げられる可能性があります。データの可用性が低く、計算リソースが限られているドメインに特に適した、事前にトレーニングされたビジョントランスフォーマー(ViT)に基づく代替方法を提案します。限られたリソースで標準デバイスに簡単に実装できるため、開発途上国でのスマートフォンベースの画像分類でのこれらのモデルの使用を民主化できます。確立されたCNNアプローチを使用して、バナナとリンゴの果実のドメインデータセットで2つの異なる分類タスクをベンチマークすることにより、この方法の競争力を示します。私たちの方法は、3745枚の画像のトレーニングデータセットで、最高のパフォーマンスを発揮するCNN(0.950対0.958)を1%未満下回る分類精度を達成します。同時に、ラベル付けされたトレーニングサンプルの数が少ない場合、私たちの方法は優れています。 CNNと比較して0.90の精度を達成するには、必要なデータが3分の1になります。さらに、低次元の特徴の埋め込みの視覚化は、私たちの研究で使用されたモデルが、ラベルを割り当てることなく、見えないデータから優れた特徴を抽出することを示しています。
Automated image classification is a common task for supervised machine learning in food science. An example is the image-based classification of the fruit's external quality or ripeness. For this purpose, deep convolutional neural networks (CNNs) are typically used. These models usually require a large number of labeled training samples and enhanced computational resources. While commercial fruit sorting lines readily meet these requirements, the use of machine learning approaches can be hindered by these prerequisites, especially for smallholder farmers in the developing world. We propose an alternative method based on pre-trained vision transformers (ViTs) that is particularly suitable for domains with low availability of data and limited computational resources. It can be easily implemented with limited resources on a standard device, which can democratize the use of these models for smartphone-based image classification in developing countries. We demonstrate the competitiveness of our method by benchmarking two different classification tasks on domain data sets of banana and apple fruits with well-established CNN approaches. Our method achieves a classification accuracy of less than one percent below the best-performing CNN (0.950 vs. 0.958) on a training data set of 3745 images. At the same time, our method is superior when only a small number of labeled training samples is available. It requires three times less data to achieve a 0.90 accuracy compared to CNNs. In addition, visualizations of low-dimensional feature embeddings show that the model used in our study extracts excellent features from unseen data without allocating labels.
updated: Sun Jul 10 2022 19:52:20 GMT+0000 (UTC)
published: Sun Jul 10 2022 19:52:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト