A Comprehensive Study on Torchvision Pre-trained Models for Fine-grained Inter-species Classification
この調査は、PyTorchライブラリで利用可能なTorchvisionパッケージで提供されるさまざまな事前トレーニング済みモデルを調査することを目的としています。そして、きめの細かい画像分類に対するそれらの有効性を調査します。転移学習は、不十分なトレーニングデータで非常に優れたパフォーマンスを達成するための効果的な方法です。多くの現実の状況では、人々は深い神経ネットワークモデルを効率的に訓練するために必要な十分なデータを収集することができません。転移学習モデルは、大規模なデータセットで事前にトレーニングされており、トレーニング時間を大幅に短縮して、より小さなデータセットで優れたパフォーマンスを実現できます。 Torchvisionパッケージは、より小さなデータセットに転移学習を適用するための多くのモデルを提供します。したがって、研究者は良いモデルを選択するためのガイドラインを必要とするかもしれません。 4つの異なるデータセット(10のサル種、225の鳥種、フルーツ360、およびオックスフォード102の花)でTorchvisionの事前トレーニング済みモデルを調査します。これらのデータセットには、さまざまな解像度、クラス番号、およびさまざまな達成可能な精度の画像が含まれています。また、SpinalNetの有効性を調査するために、通常の完全接続レイヤーとSpinal完全接続レイヤーを適用します。 Spinalの完全に接続されたレイヤーは、ほとんどの状況でパフォーマンスを向上させます。公正な比較のために、同じデータセットの異なるモデルに同じ拡張を適用します。このペーパーは、将来のコンピュータビジョン研究者が適切な転移学習モデルを選択するのに役立つ可能性があります。
This study aims to explore different pre-trained models offered in the Torchvision package which is available in the PyTorch library. And investigate their effectiveness on fine-grained images classification. Transfer Learning is an effective method of achieving extremely good performance with insufficient training data. In many real-world situations, people cannot collect sufficient data required to train a deep neural network model efficiently. Transfer Learning models are pre-trained on a large data set, and can bring a good performance on smaller datasets with significantly lower training time. Torchvision package offers us many models to apply the Transfer Learning on smaller datasets. Therefore, researchers may need a guideline for the selection of a good model. We investigate Torchvision pre-trained models on four different data sets: 10 Monkey Species, 225 Bird Species, Fruits 360, and Oxford 102 Flowers. These data sets have images of different resolutions, class numbers, and different achievable accuracies. We also apply their usual fully-connected layer and the Spinal fully-connected layer to investigate the effectiveness of SpinalNet. The Spinal fully-connected layer brings better performance in most situations. We apply the same augmentation for different models for the same data set for a fair comparison. This paper may help future Computer Vision researchers in choosing a proper Transfer Learning model.
updated: Thu Oct 14 2021 00:36:02 GMT+0000 (UTC)
published: Thu Oct 14 2021 00:36:02 GMT+0000 (UTC)
