画像クラスタリングの最近の進歩は通常、より深い表現を学ぶことに焦点を当てています。対照的に、抽象的な機能に依存せず、代わりに画像変換を予測し、画像空間で直接クラスタリングを実行する直交アプローチを提示します。この学習プロセスは、K平均とガウス混合モデルの勾配ベースのトレーニングに自然に適合し、追加の損失やハイパーパラメーターを必要としません。これにより、プロトタイプと変換を共同で学習する2つの新しいディープトランスフォーメーション不変のクラスタリングフレームワークにつながります。より具体的には、空間、色、および形態の変換に対する不変性を解決できるディープラーニングモジュールを使用します。私たちのアプローチは概念的にシンプルで、目的の不変性をタスクに簡単に適応できる可能性、クラスターの中心とクラスターへの割り当ての両方の強力な解釈可能性など、いくつかの利点があります。私たちの新しいアプローチは、標準的な画像クラスタリングベンチマークで競争力のある非常に有望な結果をもたらすことを示しています。最後に、実際の写真コレクションに対してクラスタリングの結果を視覚化することにより、その堅牢性と改善された解釈可能性の利点を紹介します。
Recent advances in image clustering typically focus on learning better deep representations. In contrast, we present an orthogonal approach that does not rely on abstract features but instead learns to predict image transformations and performs clustering directly in image space. This learning process naturally fits in the gradient-based training of K-means and Gaussian mixture model, without requiring any additional loss or hyper-parameters. It leads us to two new deep transformation-invariant clustering frameworks, which jointly learn prototypes and transformations. More specifically, we use deep learning modules that enable us to resolve invariance to spatial, color and morphological transformations. Our approach is conceptually simple and comes with several advantages, including the possibility to easily adapt the desired invariance to the task and a strong interpretability of both cluster centers and assignments to clusters. We demonstrate that our novel approach yields competitive and highly promising results on standard image clustering benchmarks. Finally, we showcase its robustness and the advantages of its improved interpretability by visualizing clustering results over real photograph collections.