クラスタリングアルゴリズムは、データの効果的な表現を提供するディープニューラルネットワークとともに大幅に改善されました。既存の方法は、サンプルのクラスター割り当ての分散を活用するディープオートエンコーダーとセルフトレーニングプロセスに基づいて構築されています。ただし、オートエンコーダの基本的な目的は効率的なデータ再構築に焦点を合わせているため、学習された空間はクラスタリングには最適ではない可能性があります。さらに、データの非常に効果的なコード(つまり、表現)が必要です。そうでない場合、最初のクラスターセンターは、セルフトレーニング中に安定性の問題を引き起こすことがよくあります。多くの最先端のクラスタリングアルゴリズムは、畳み込み演算を使用して効率的なコードを抽出しますが、それらのアプリケーションは画像データに限定されています。この点に関して、我々は、一般的なデータセットに対して、エンドツーエンドのディープクラスタリングアルゴリズム、すなわち、Very Compact Clusters(VCC)を提案します。これは、クラスターの境界近くのサンプルの局所的な関係の分布を利用して、適切に分離され、クラスターの中心に引っ張られてコンパクトなクラスターを形成します。さまざまなデータセットでの実験結果は、提案されたアプローチがほとんどの最先端のクラスタリング手法よりも優れたクラスタリングパフォーマンスを達成し、画像データの畳み込みなしでVCCによって学習されたデータ埋め込みが特殊な畳み込み手法と同等であることを示しています。
Clustering algorithms have significantly improved along with Deep Neural Networks which provide effective representation of data. Existing methods are built upon deep autoencoder and self-training process that leverages the distribution of cluster assignments of samples. However, as the fundamental objective of the autoencoder is focused on efficient data reconstruction, the learnt space may be sub-optimal for clustering. Moreover, it requires highly effective codes (i.e., representation) of data, otherwise the initial cluster centers often cause stability issues during self-training. Many state-of-the-art clustering algorithms use convolution operation to extract efficient codes but their applications are limited to image data. In this regard, we propose an end-to-end deep clustering algorithm, i.e., Very Compact Clusters (VCC), for the general datasets, which takes advantage of distributions of local relationships of samples near the boundary of clusters, so that they can be properly separated and pulled to cluster centers to form compact clusters. Experimental results on various datasets illustrate that our proposed approach achieves better clustering performance over most of the state-of-the-art clustering methods, and the data embeddings learned by VCC without convolution for image data are even comparable with specialized convolutional methods.