ラベル付けされたデータが不足しているため、ImageNetで事前にトレーニングされたモデルを使用することは、リモートセンシングシーン分類の事実上の標準です。最近、新しいベンチマークを確立することを目的として、いくつかのより大きな高解像度リモートセンシング(HRRS)データセットが登場しましたが、これらのデータセットでモデルを最初からトレーニングする試みは散発的です。このホワイトペーパーでは、いくつかの新しいデータセットでモデルを最初からトレーニングすると、ImageNetで事前にトレーニングされたモデルを微調整するのと同等の結果が得られることを示します。さらに、HRRSデータセットで学習された表現は、ImageNetで学習された表現と同じように、または少なくとも同様に、他のHRRSシーン分類タスクに転送されます。最後に、多くの場合、ドメイン内データを使用した2回目の事前トレーニング、つまりドメイン適応型事前トレーニングを使用することで、最良の表現が得られることを示します。ソースコードと事前トレーニング済みモデルは、https://github.com/risojevicv/RSSC-transferで入手できます。
Due to the scarcity of labeled data, using models pre-trained on ImageNet is a de facto standard in remote sensing scene classification. Although, recently, several larger high resolution remote sensing (HRRS) datasets have appeared with a goal of establishing new benchmarks, attempts at training models from scratch on these datasets are sporadic. In this paper, we show that training models from scratch on several newer datasets yields comparable results to fine-tuning the models pre-trained on ImageNet. Furthermore, the representations learned on HRRS datasets transfer to other HRRS scene classification tasks better or at least similarly as those learned on ImageNet. Finally, we show that in many cases the best representations are obtained by using a second round of pre-training using in-domain data, i.e. domain-adaptive pre-training. The source code and pre-trained models are available at https://github.com/risojevicv/RSSC-transfer.