arXiv reaDer
新しい相関ベースのクラスター妥当性インデックスを使用したクラスタリングパフォーマンス分析
Clustering performance analysis using a new correlation-based cluster validity index
クラスタリング結果の評価に使用されるさまざまなクラスター妥当性指標があります。これらのインデックスを使用する主な目的の1つは、クラスターの最適な未知数を探すことです。一部のインデックスは、密度、サイズ、および形状が異なるクラスターに適しています。しかし、これらの妥当性指標の共通の弱点の1つは、最適な数のクラスターしか提供しないことが多いことです。その数は実際の問題では不明であり、複数の可能なオプションがある可能性があります。データポイントのペア間の実際の距離と、2つのポイントが占めるクラスターの重心距離との相関関係に基づいて、新しいクラスター妥当性インデックスを開発します。私たちが提案するインデックスは、常にいくつかの局所的なピークを生み出し、前述の弱点を克服します。提案された妥当性指標をいくつかのよく知られた指標と比較するために、UCIの実世界のデータセットを含む、さまざまなシナリオでのいくつかの実験が実施されました。 NCvalidと呼ばれるこの新しいインデックスに関連するRパッケージは、https://github.com/nwiroonsri/NCvalidで入手できます。
There are various cluster validity indices used for evaluating clustering results. One of the main objectives of using these indices is to seek the optimal unknown number of clusters. Some indices work well for clusters with different densities, sizes, and shapes. Yet, one shared weakness of those validity indices is that they often provide only one optimal number of clusters. That number is unknown in real-world problems, and there might be more than one possible option. We develop a new cluster validity index based on a correlation between an actual distance between a pair of data points and a centroid distance of clusters that the two points occupy. Our proposed index constantly yields several local peaks and overcomes the previously stated weakness. Several experiments in different scenarios, including UCI real-world data sets, have been conducted to compare the proposed validity index with several well-known ones. An R package related to this new index called NCvalid is available at https://github.com/nwiroonsri/NCvalid.
updated: Mon Jul 25 2022 06:41:09 GMT+0000 (UTC)
published: Thu Sep 23 2021 06:59:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト