サブスペースクラスタリングは、データポイントを複数のクラスターにグループ化し、それぞれが1つのサブスペースに対応することを目的としています。既存のほとんどの部分空間クラスタリング手法は、入力データが線形部分空間にあると想定しています。しかし実際には、この仮定は通常は成り立たない。非線形部分空間クラスタリングを実現するために、カーネル切り捨て回帰表現と呼ばれる新しい方法を提案します。私たちの方法は、次の4つのステップで構成されています。1)各データポイントを他のデータポイントで線形に表現できる非表示スペースに入力データを投影します。 2)隠された空間におけるデータ表現の線形表現係数を計算する。 3)ロバスト性とブロック対角性を実現するために自明な係数を切り捨てます。 4)グラフラプラシアン問題を解くことにより、係数行列に対してグラフカット操作を実行する。私たちの方法には、閉形式のソリューションの利点と、非線形部分空間にあるデータポイントをクラスタリングする能力があります。最初の利点は、大規模なデータセットを処理する上で私たちの方法を効率的にし、2つ目の利点は、提案された方法が非線形部分空間クラスタリングの課題を克服することを可能にします。 6つのベンチマークに関する広範な実験は、現在の最先端のアプローチと比較して、提案された方法の有効性と効率を実証します。
Subspace clustering aims to group data points into multiple clusters of which each corresponds to one subspace. Most existing subspace clustering approaches assume that input data lie on linear subspaces. In practice, however, this assumption usually does not hold. To achieve nonlinear subspace clustering, we propose a novel method, called kernel truncated regression representation. Our method consists of the following four steps: 1) projecting the input data into a hidden space, where each data point can be linearly represented by other data points; 2) calculating the linear representation coefficients of the data representations in the hidden space; 3) truncating the trivial coefficients to achieve robustness and block-diagonality; and 4) executing the graph cutting operation on the coefficient matrix by solving a graph Laplacian problem. Our method has the advantages of a closed-form solution and the capacity of clustering data points that lie on nonlinear subspaces. The first advantage makes our method efficient in handling large-scale datasets, and the second one enables the proposed method to conquer the nonlinear subspace clustering challenge. Extensive experiments on six benchmarks demonstrate the effectiveness and the efficiency of the proposed method in comparison with current state-of-the-art approaches.