ラベルのない生画像のクラスタリングは困難な作業であり、最近、深層学習法によってある程度の成功を収めています。ここでは、教師なしクラスタリングフレームワークを提案します。これは、ディープニューラルネットワークをエンドツーエンドで学習し、追加の処理なしで画像の直接クラスター割り当てを提供します。マルチモーダルディープクラスタリング(MMDC)は、ディープネットワークをトレーニングして、画像の埋め込みをガウス混合モデル分布からサンプリングされたターゲットポイントに合わせます。次に、クラスターの割り当ては、画像埋め込みの混合コンポーネントの関連付けによって決定されます。同時に、同じ深いネットワークが、画像の回転を予測する追加の自己監視タスクを解決するようにトレーニングされます。これにより、ネットワークは、より良いクラスタリングを容易にする、より意味のある画像表現を学習するようになります。実験結果は、MMDCが6つの挑戦的なベンチマークで最先端のパフォーマンスを達成または上回っていることを示しています。自然画像データセットでは、最大20%の絶対精度ポイントの大幅なマージンで以前の結果を改善し、CIFAR-10で82%、CIFAR-100で45%、STL-10で69%の精度を実現しています。
The clustering of unlabeled raw images is a daunting task, which has recently been approached with some success by deep learning methods. Here we propose an unsupervised clustering framework, which learns a deep neural network in an end-to-end fashion, providing direct cluster assignments of images without additional processing. Multi-Modal Deep Clustering (MMDC), trains a deep network to align its image embeddings with target points sampled from a Gaussian Mixture Model distribution. The cluster assignments are then determined by mixture component association of image embeddings. Simultaneously, the same deep network is trained to solve an additional self-supervised task of predicting image rotations. This pushes the network to learn more meaningful image representations that facilitate a better clustering. Experimental results show that MMDC achieves or exceeds state-of-the-art performance on six challenging benchmarks. On natural image datasets we improve on previous results with significant margins of up to 20% absolute accuracy points, yielding an accuracy of 82% on CIFAR-10, 45% on CIFAR-100 and 69% on STL-10.