arXiv reaDer
効率的な次元削減のための階層的最近傍グラフ埋め込み
Hierarchical Nearest Neighbor Graph Embedding for Efficient Dimensionality Reduction
次元削減は、機械学習のための高次元データの視覚化と前処理の両方にとって重要です。複数のレベルでデータ分布のグループ化プロパティを保持するために使用される、元の空間の1つの最も近い隣接グラフに基づいて構築された階層に基づく新しい方法を紹介します。提案の中核となるのは、最適化のない予測であり、パフォーマンスと視覚化の品質において最新バージョンのt-SNEおよびUMAPと競合し、実行時も桁違いに高速です。さらに、その解釈可能なメカニズム、新しいデータを投影する機能、および視覚化におけるデータクラスターの自然な分離により、これは汎用の教師なし次元削減手法になります。この論文では、提案された方法の健全性について議論し、サイズが1Kから11Mのサンプル、寸法が28から16Kのさまざまなデータセットのコレクションで評価します。複数のメトリックとターゲットディメンションで他の最先端の方法との比較を実行し、その効率とパフォーマンスを強調します。コードはhttps://github.com/koulakis/h-nneで入手できます
Dimensionality reduction is crucial both for visualization and preprocessing high dimensional data for machine learning. We introduce a novel method based on a hierarchy built on 1-nearest neighbor graphs in the original space which is used to preserve the grouping properties of the data distribution on multiple levels. The core of the proposal is an optimization-free projection that is competitive with the latest versions of t-SNE and UMAP in performance and visualization quality while being an order of magnitude faster in run-time. Furthermore, its interpretable mechanics, the ability to project new data, and the natural separation of data clusters in visualizations make it a general purpose unsupervised dimension reduction technique. In the paper, we argue about the soundness of the proposed method and evaluate it on a diverse collection of datasets with sizes varying from 1K to 11M samples and dimensions from 28 to 16K. We perform comparisons with other state-of-the-art methods on multiple metrics and target dimensions highlighting its efficiency and performance. Code is available at https://github.com/koulakis/h-nne
updated: Sun May 29 2022 10:57:31 GMT+0000 (UTC)
published: Thu Mar 24 2022 11:41:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト