arXiv reaDer
クラスタリングのための進化する類似性関数のための遺伝的プログラミング:表現と分析
Genetic Programming for Evolving Similarity Functions for Clustering: Representations and Analysis
  クラスタリングは、多くの種類のクラスタリングアルゴリズムが文献で提案されている、困難で広く研究されているデータマイニングタスクです。ほぼすべてのアルゴリズムは、距離メトリック(ユークリッド距離など)などの類似性尺度を使用して、同じクラスターに割り当てるインスタンスを決定します。これらの類似性の尺度は一般に事前に定義されており、特定のデータセットのプロパティに簡単に合わせることができないため、生成されるクラスターの品質と解釈可能性に制限が生じます。本論文では、遺伝的プログラミングを使用して、特定のクラスタリングアルゴリズムの類似度関数を自動的に進化させる新しいアプローチを提案します。機能の小さなサブセットを自動的に選択し(機能選択)、さまざまな機能を使用してそれらを組み合わせて(機能構築)、特定のデータセット用に特別に設計された動的で柔軟な類似性機能を生成する新しい遺伝的プログラミングベースの方法を紹介します。進化した類似度関数を使用して、グラフベースの表現を使用してクラスタリングを実行する方法を示します。さまざまな大規模で高次元のデータセットにわたるさまざまな実験の結果は、提案されたアプローチがベンチマーク手法よりも高い一貫性のあるパフォーマンスを達成できることを示しています。提案されたアプローチをさらに拡張して、マルチツリーアプローチを使用して複数の補完的な類似性関数を自動的に生成します。また、自動的に進化した類似性関数の解釈可能性と構造を分析して、標準距離メトリックよりも優れている方法と理由についての洞察を提供します。
Clustering is a difficult and widely-studied data mining task, with many varieties of clustering algorithms proposed in the literature. Nearly all algorithms use a similarity measure such as a distance metric (e.g. Euclidean distance) to decide which instances to assign to the same cluster. These similarity measures are generally pre-defined and cannot be easily tailored to the properties of a particular dataset, which leads to limitations in the quality and the interpretability of the clusters produced. In this paper, we propose a new approach to automatically evolving similarity functions for a given clustering algorithm by using genetic programming. We introduce a new genetic programming-based method which automatically selects a small subset of features (feature selection) and then combines them using a variety of functions (feature construction) to produce dynamic and flexible similarity functions that are specifically designed for a given dataset. We demonstrate how the evolved similarity functions can be used to perform clustering using a graph-based representation. The results of a variety of experiments across a range of large, high-dimensional datasets show that the proposed approach can achieve higher and more consistent performance than the benchmark methods. We further extend the proposed approach to automatically produce multiple complementary similarity functions by using a multi-tree approach, which gives further performance improvements. We also analyse the interpretability and structure of the automatically evolved similarity functions to provide insight into how and why they are superior to standard distance metrics.
updated: Tue Oct 22 2019 22:45:19 GMT+0000 (UTC)
published: Tue Oct 22 2019 22:45:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト