この論文では、Pascal VOC データセットを使用したセマンティック セグメンテーションに関する包括的な研究を紹介します。ここでは、存在するオブジェクト/エンティティに基づいて画像全体をセグメント化するクラスで各ピクセルにラベルを付ける必要があります。これに取り組むために、最初に 71.31% のピクセル精度と 0.0527 平均 IoU を与える完全畳み込みネットワーク (FCN) ベースラインを使用します。そのパフォーマンスと動作を分析した後、次の 3 つの改善によりベースラインの問題に対処します。 0.0585) c) クラスの不均衡の重み (ピクセル精度: 68.98%、IoU: 0.0596)。これらのトレーニング パイプラインの変更とは別に、次の 3 つの異なるアーキテクチャについても検討します。 %, IoU: 0.0926 ) c) U-Net(ピクセル精度: 72.15%, IoU: 0.0649).メトリクスとセグメンテーション マップの両方に反映されているように、改善がパフォーマンスの大幅な改善に役立つことがわかります。興味深いことに、改善の中で、データセットの増強が最大の貢献をしていることがわかります。また、転移学習モデルは Pascal データセットで最高のパフォーマンスを発揮することに注意してください。損失、精度、IoU プロットとセグメンテーション マップを使用して、これらのパフォーマンスを分析します。これは、モデルの動作に関する貴重な洞察を引き出すのに役立ちます。
In this paper, we present a comprehensive study on semantic segmentation with the Pascal VOC dataset. Here, we have to label each pixel with a class which in turn segments the entire image based on the objects/entities present. To tackle this, we firstly use a Fully Convolution Network (FCN) baseline which gave 71.31% pixel accuracy and 0.0527 mean IoU. We analyze its performance and working and subsequently address the issues in the baseline with three improvements: a) cosine annealing learning rate scheduler(pixel accuracy: 72.86%, IoU: 0.0529), b) data augmentation(pixel accuracy: 69.88%, IoU: 0.0585) c) class imbalance weights(pixel accuracy: 68.98%, IoU: 0.0596). Apart from these changes in training pipeline, we also explore three different architectures: a) Our proposed model -- Advanced FCN (pixel accuracy: 67.20%, IoU: 0.0602) b) Transfer Learning with ResNet (Best performance) (pixel accuracy: 71.33%, IoU: 0.0926 ) c) U-Net(pixel accuracy: 72.15%, IoU: 0.0649). We observe that the improvements help in greatly improving the performance, as reflected both, in metrics and segmentation maps. Interestingly, we observe that among the improvements, dataset augmentation has the greatest contribution. Also, note that transfer learning model performs the best on the pascal dataset. We analyse the performance of these using loss, accuracy and IoU plots along with segmentation maps, which help us draw valuable insights about the working of the models.