arXiv reaDer
Improving the Effectiveness and Efficiency of Stochastic Neighbour Embedding with Isolation Kernel
このホワイトペーパーでは、ガウスカーネルの代わりに分離カーネルを使用することにより、確率的隣接埋め込み(t-SNE)のパフォーマンスを改善するための新しい洞察を示します。分離カーネルは、2つの点でガウスカーネルよりも優れています。まず、t-SNEで分離カーネルを使用すると、データ内の一部の構造が誤って表現されるという欠点が克服されます。これは、ガウスカーネルがt-SNEに適用されるときによく発生します。これは、ガウスカーネルが1つのローカルポイントのみに基づいて各ローカル帯域幅を決定するのに対し、分離カーネルはスペース分割に基づいてデータから直接派生するためです。第2に、Isolationカーネルを使用すると、調整が必要なパラメーターが1つしかないため、より効率的な類似性の計算が可能になります。対照的に、データに依存しないガウスカーネルを使用すると、nポイントのデータセットに対してn帯域幅を決定することにより、計算コストが増加します。 t-SNEのこれらの欠陥の根本的な原因はガウスカーネルであるため、t-SNEでガウスカーネルを分離カーネルに置き換えるだけで、最終的な視覚化出力の品質が大幅に向上し(誤って表現された構造を作成することなく)、1つの主要な障害が取り除かれることを示します。 t-SNEが大きなデータセットを処理するのを防ぎます。さらに、Isolationカーネルを使用すると、t-SNEを高速化する既存の方法とは異なり、t-SNEは、精度を犠牲にすることなく、より少ない実行時間で大規模なデータセットを処理できます。
This paper presents a new insight into improving the performance of Stochastic Neighbour Embedding (t-SNE) by using Isolation kernel instead of Gaussian kernel. Isolation kernel outperforms Gaussian kernel in two aspects. First, the use of Isolation kernel in t-SNE overcomes the drawback of misrepresenting some structures in the data, which often occurs when Gaussian kernel is applied in t-SNE. This is because Gaussian kernel determines each local bandwidth based on one local point only, while Isolation kernel is derived directly from the data based on space partitioning. Second, the use of Isolation kernel yields a more efficient similarity computation because data-dependent Isolation kernel has only one parameter that needs to be tuned. In contrast, the use of data-independent Gaussian kernel increases the computational cost by determining n bandwidths for a dataset of n points. As the root cause of these deficiencies in t-SNE is Gaussian kernel, we show that simply replacing Gaussian kernel with Isolation kernel in t-SNE significantly improves the quality of the final visualisation output (without creating misrepresented structures) and removes one key obstacle that prevents t-SNE from processing large datasets. Moreover, Isolation kernel enables t-SNE to deal with large-scale datasets in less runtime without trading off accuracy, unlike existing methods in speeding up t-SNE.
updated: Thu Jul 08 2021 04:20:20 GMT+0000 (UTC)
published: Mon Jun 24 2019 06:49:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト