arXiv reaDer
サポートラインを使用した多次元クラスターの生成
Generating Multidimensional Clusters With Support Lines
合成データは、クラスタリング技術を評価し、実際のデータを補完および拡張し、特定の問題の空間をより完全にカバーできるようにするために不可欠です。次に、合成データ ジェネレーターは、クラスター分析アルゴリズムを体系的に調査するための十分に理解された生成手順と解釈可能な手段を提供しながら、膨大な量のデータを作成する可能性を秘めています。これは現実世界のデータが貴重な場合に重要なアクティビティです。ここでは、任意の分布を使用して線分によってサポートされる多次元クラスターを作成できる、合成データ生成用のモジュール式手順である Clugen を紹介します。 Clugen はオープン ソースであり、包括的に単体テストと文書化が行われており、Python、R、Julia、MATLAB/Octave エコシステムで利用できます。私たちは、私たちの提案がさまざまな側面で豊富で多様な結果を生み出すことができ、クラスタリングアルゴリズムの評価での使用に適しており、さまざまなクラスタリング関連の研究タスクで広く使用されるフレームワークになる可能性があることを実証します。
Synthetic data is essential for assessing clustering techniques, complementing and extending real data, and allowing for more complete coverage of a given problem's space. In turn, synthetic data generators have the potential of creating vast amounts of data -- a crucial activity when real-world data is at premium -- while providing a well-understood generation procedure and an interpretable instrument for methodically investigating cluster analysis algorithms. Here, we present Clugen, a modular procedure for synthetic data generation, capable of creating multidimensional clusters supported by line segments using arbitrary distributions. Clugen is open source, comprehensively unit tested and documented, and is available for the Python, R, Julia, and MATLAB/Octave ecosystems. We demonstrate that our proposal can produce rich and varied results in various dimensions, is fit for use in the assessment of clustering algorithms, and has the potential to be a widely used framework in diverse clustering-related research tasks.
updated: Sun Jul 30 2023 23:00:36 GMT+0000 (UTC)
published: Tue Jan 24 2023 22:08:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト