このレポートは、セマンティックセグメンテーションなどの高密度分類タスクに重点を置いて機械学習モデルをトレーニングするための衛星画像データセットを自動的に生成するための設計上の考慮事項を示しています。提示された実装では、無料で利用できるSentinel-2データを利用して、ディープニューラルネットワークのトレーニングに必要な大規模なデータセットを生成できます。グラウンドトゥルースデータの品質のチェックなど、ディープニューラルネットワークのトレーニングと評価の観点から直面する問題について説明し、アプローチのスケーラビリティについてコメントします。付随するコードはhttps://github.com/michaeltrs/DeepSatDataで提供されています。
This report presents design considerations for automatically generating satellite imagery datasets for training machine learning models with emphasis placed on dense classification tasks, e.g. semantic segmentation. The implementation presented makes use of freely available Sentinel-2 data which allows generation of large scale datasets required for training deep neural networks. We discuss issues faced from the point of view of deep neural network training and evaluation such as checking the quality of ground truth data and comment on the scalability of the approach. Accompanying code is provided in https://github.com/michaeltrs/DeepSatData.