多くの研究分野では、既存のデータセットのサイズは大きく異なります。したがって、これらのさまざまなデータセットに適した機械学習技術が必要です。考えられる手法の1つは、自己組織化マップ(SOM)です。これは、これまで機械学習の分野ではあまり表現されていなかった人工ニューラルネットワークの一種です。 SOMのユニークな特性は、出力ニューロンの近傍関係です。この関係により、小さなデータセットの一般化機能が向上します。 SOMは主に教師なし学習に適用され、SOMを教師あり学習アプローチとして使用することに焦点を当てた研究はほとんどありません。さらに、機械学習標準および広く使用されているプログラミング言語Pythonに関しては、適切なSOMパッケージは利用できません。このホワイトペーパーでは、教師あり回帰と分類を実行する、無料で利用可能な教師あり自己組織化マップ(SuSi)Pythonパッケージを紹介します。 SuSiの実装は、基礎となる数学に関して説明されています。次に、地理空間画像分析の2つの異なるドメインからの回帰および分類データセットのSOMの最初の評価を示します。開発の初期段階にもかかわらず、SuSiフレームワークは良好に機能し、トレーニングデータセットとテストデータセットのパフォーマンスのわずかな違いのみが特徴です。 SuSiフレームワークと既存のPythonおよびRパッケージとの比較は、SuSiフレームワークの重要性を示しています。今後の作業では、SuSiフレームワークが拡張、最適化、アップグレードされます。入力データと欠落データや不完全なデータの処理をよりよく理解して視覚化するツールを備えています。
In many research fields, the sizes of the existing datasets vary widely. Hence, there is a need for machine learning techniques which are well-suited for these different datasets. One possible technique is the self-organizing map (SOM), a type of artificial neural network which is, so far, weakly represented in the field of machine learning. The SOM's unique characteristic is the neighborhood relationship of the output neurons. This relationship improves the ability of generalization on small datasets. SOMs are mostly applied in unsupervised learning and few studies focus on using SOMs as supervised learning approach. Furthermore, no appropriate SOM package is available with respect to machine learning standards and in the widely used programming language Python. In this paper, we introduce the freely available Supervised Self-organizing maps (SuSi) Python package which performs supervised regression and classification. The implementation of SuSi is described with respect to the underlying mathematics. Then, we present first evaluations of the SOM for regression and classification datasets from two different domains of geospatial image analysis. Despite the early stage of its development, the SuSi framework performs well and is characterized by only small performance differences between the training and the test datasets. A comparison of the SuSi framework with existing Python and R packages demonstrates the importance of the SuSi framework. In future work, the SuSi framework will be extended, optimized and upgraded e.g. with tools to better understand and visualize the input data as well as the handling of missing and incomplete data.