arXiv reaDer
Clustering in Hilbert simplex geometry
有限次元確率シンプレックスでのカテゴリ分布のクラスタリングは、正規化されたヒストグラムを扱う多くのアプリケーションで満たされる基本的なタスクです。伝統的に、確率シンプレックスの微分幾何構造は、(i)リーマン計量テンソルをカテゴリ分布のフィッシャー情報行列に設定するか、(ii)滑らかな非類似性によって誘発される二元的な情報幾何構造を定義することによって使用されてきました。メジャー、カルバック・ライブラー発散。この作業では、クラスタリングタスクのために、確率シンプレックスを幾何学的にモデル化するための新しい計算に適したフレームワークであるヒルベルトシンプレックスジオメトリを紹介します。ヒルベルトシンプレックスジオメトリでは、距離は分離不可能なヒルベルトのメトリック距離であり、ポリトープ境界によって記述される距離レベル集合関数で情報の単調性のプロパティを満たします。 Aitchisonシンプレックス距離とHilbertシンプレックス距離の両方が、それぞれℓ_2と変動ノルムに関して正規化された対数表現のノルム距離であることを示します。これらのさまざまな統計モデリングの長所と短所について説明し、中心ベースのk-meansとk-centerクラスタリングのこれらのさまざまな種類のジオメトリを実験的にベンチマークします。さらに、正規のヒルベルト距離はユークリッド空間の任意の有界凸部分集合で定義できるため、相関行列の楕円のヒルベルトの幾何学も考慮し、フレベニウスおよび対数det発散と比較したクラスタリングパフォーマンスを研究します。
Clustering categorical distributions in the finite-dimensional probability simplex is a fundamental task met in many applications dealing with normalized histograms. Traditionally, the differential-geometric structures of the probability simplex have been used either by (i) setting the Riemannian metric tensor to the Fisher information matrix of the categorical distributions, or (ii) defining the dualistic information-geometric structure induced by a smooth dissimilarity measure, the Kullback-Leibler divergence. In this work, we introduce for clustering tasks a novel computationally-friendly framework for modeling geometrically the probability simplex: The Hilbert simplex geometry. In the Hilbert simplex geometry, the distance is the non-separable Hilbert's metric distance which satisfies the property of information monotonicity with distance level set functions described by polytope boundaries. We show that both the Aitchison and Hilbert simplex distances are norm distances on normalized logarithmic representations with respect to the ℓ_2 and variation norms, respectively. We discuss the pros and cons of those different statistical modelings, and benchmark experimentally these different kind of geometries for center-based k-means and k-center clustering. Furthermore, since a canonical Hilbert distance can be defined on any bounded convex subset of the Euclidean space, we also consider Hilbert's geometry of the elliptope of correlation matrices and study its clustering performances compared to Fröbenius and log-det divergences.
updated: Fri Nov 19 2021 06:42:10 GMT+0000 (UTC)
published: Mon Apr 03 2017 07:23:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト