arXiv reaDer
教師なし多様体の線形化とクラスタリング
Unsupervised Manifold Linearizing and Clustering
私たちは、機械学習とコンピューター ビジョンの基本的なタスクである、低次元多様体の和集合の近くにあるデータの線形表現のクラスタリングと学習を同時に行うという問題を検討します。多様体が線形部分空間であると仮定すると、これは部分空間クラスタリングという古典的な問題に帰着しますが、これは過去 20 年間にわたって広範囲に研究されてきました。残念ながら、自然画像などの現実世界のデータセットの多くは、線形部分空間によって適切に近似することができません。一方、多くの研究では、データが一般的な非線形多様体の和集合から線形部分空間の和集合にマッピングされるように、データの適切な変換を学習しようと試みてきました (同じ多様体からの点は同じ集合体にマッピングされます)。亜空間)。ただし、既存の研究の多くには、クラスターへのサンプルのメンバーシップに関する知識を前提としている、高いサンプリング密度が必要である、または自明な表現を学習するために理論的に示されているなどの制限があります。この論文では、最先端の部分空間クラスタリングの結果に触発された、データ表現と新しい二重確率クラスター メンバーシップの両方に関して最大​​符号化率削減メトリックを最適化することを提案します。このような表現とメンバーシップをパラメータ化して、効率的なミニバッチ処理とワンショットの初期化を可能にします。 CIFAR-10、-20、-100、および TinyImageNet-200 データセットの実験では、提案された方法が最先端のディープ クラスタリング方法よりもはるかに正確でスケーラブルであり、データの潜在的な線形表現をさらに学習することが示されています。 。
We consider the problem of simultaneously clustering and learning a linear representation of data lying close to a union of low-dimensional manifolds, a fundamental task in machine learning and computer vision. When the manifolds are assumed to be linear subspaces, this reduces to the classical problem of subspace clustering, which has been studied extensively over the past two decades. Unfortunately, many real-world datasets such as natural images can not be well approximated by linear subspaces. On the other hand, numerous works have attempted to learn an appropriate transformation of the data, such that data is mapped from a union of general non-linear manifolds to a union of linear subspaces (with points from the same manifold being mapped to the same subspace). However, many existing works have limitations such as assuming knowledge of the membership of samples to clusters, requiring high sampling density, or being shown theoretically to learn trivial representations. In this paper, we propose to optimize the Maximal Coding Rate Reduction metric with respect to both the data representation and a novel doubly stochastic cluster membership, inspired by state-of-the-art subspace clustering results. We give a parameterization of such a representation and membership, allowing efficient mini-batching and one-shot initialization. Experiments on CIFAR-10, -20, -100, and TinyImageNet-200 datasets show that the proposed method is much more accurate and scalable than state-of-the-art deep clustering methods, and further learns a latent linear representation of the data.
updated: Thu Aug 24 2023 06:28:02 GMT+0000 (UTC)
published: Wed Jan 04 2023 20:08:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト