arXiv reaDer
教師なし多様体の線形化とクラスタリング
Unsupervised Manifold Linearizing and Clustering
各多様体をクラスターとして、低次元多様体の和集合の近くにあるデータをクラスター化することは、機械学習の基本的な問題です。多様体が線形部分空間であると仮定すると、過去 20 年間にわたって広く研究されてきた低ランクおよびスパースの事前分布を使用して、多くの方法が成功します。残念ながら、ほとんどの現実世界のデータセットは線形部分空間でうまく近似できません。一方、元のデータが非線形多様体からのものであっても、マップによって変換されたデータが線形部分空間の和集合にあるように、特徴マップを学習することによって多様体を識別することを提案した研究がいくつかあります。ただし、ほとんどの作品は、クラスターへのサンプルのメンバーシップの知識を前提としているか、自明な表現を学習するように示されています。この論文では、クラスタリングを同時に実行し、Maximal Coding Rate Reduction を介して部分空間表現の和を学習することを提案します。合成および現実的なデータセットに関する実験は、提案された方法が最先端の代替手段に匹敵するクラスタリング精度を達成する一方で、よりスケーラブルであり、幾何学的に意味のある表現を学習することを示しています。
Clustering data lying close to a union of low-dimensional manifolds, with each manifold as a cluster, is a fundamental problem in machine learning. When the manifolds are assumed to be linear subspaces, many methods succeed using low-rank and sparse priors, which have been studied extensively over the past two decades. Unfortunately, most real-world datasets can not be well approximated by linear subspaces. On the other hand, several works have proposed to identify the manifolds by learning a feature map such that the data transformed by the map lie in a union of linear subspaces, even though the original data are from non-linear manifolds. However, most works either assume knowledge of the membership of samples to clusters, or are shown to learn trivial representations. In this paper, we propose to simultaneously perform clustering and learn a union-of-subspace representation via Maximal Coding Rate Reduction. Experiments on synthetic and realistic datasets show that the proposed method achieves clustering accuracy comparable with state-of-the-art alternatives, while being more scalable and learning geometrically meaningful representations.
updated: Wed Jan 04 2023 20:08:23 GMT+0000 (UTC)
published: Wed Jan 04 2023 20:08:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト