マルチビュー クラスタリングは、複数ソースの情報統合の能力のおかげで、多くの注目を集めています。過去数十年間に多数の高度な方法が提案されてきましたが、それらのほとんどは一般に、教師が弱い情報の重要性を見過ごしており、複数のビューの特徴プロパティを保持できていないため、満足のいくクラスタリング パフォーマンスが得られません。これらの問題に対処するために、この論文では、マルチビュークラスタリング損失、半教師付きペアワイズ制約損失を含む、ネットワークの微調整中に3種類の損失を共同で最適化する、新しいディープマルチビュー半教師付きクラスタリング(DMSC)メソッドを提案します複数のオートエンコーダの再構成損失。具体的には、異質な特徴の最適化、マルチビューの重み付け、およびクラスタリング予測を同時に実行するために、マルチビュー データの共通表現に KL ダイバージェンス ベースのマルチビュー クラスタリング ロスが課されます。次に、形成されたクラスタリングアーキテクチャができるように、ペアワイズ制約をマルチビュークラスタリングのプロセスに統合することを革新的に提案します。より信頼できます。さらに、ネットワークの微調整中に各異種ブランチのエンコーダーのみを保持する既存のライバルとは異なり、エンコーダーとデコーダーの両方を含む無傷のオートエンコーダー フレームを調整することをさらに提案します。このようにして、ビュー固有およびビュー共有の特徴空間の深刻な破損の問題を軽減し、トレーニング手順全体をより安定させることができます。 8 つの一般的な画像データセットでの包括的な実験を通じて、提案されたアプローチが最先端のマルチビューおよびシングルビューの競合他社よりも優れたパフォーマンスを発揮することを実証します。
Multi-view clustering has attracted much attention thanks to the capacity of multi-source information integration. Although numerous advanced methods have been proposed in past decades, most of them generally overlook the significance of weakly-supervised information and fail to preserve the feature properties of multiple views, thus resulting in unsatisfactory clustering performance. To address these issues, in this paper, we propose a novel Deep Multi-view Semi-supervised Clustering (DMSC) method, which jointly optimizes three kinds of losses during networks finetuning, including multi-view clustering loss, semi-supervised pairwise constraint loss and multiple autoencoders reconstruction loss. Specifically, a KL divergence based multi-view clustering loss is imposed on the common representation of multi-view data to perform heterogeneous feature optimization, multi-view weighting and clustering prediction simultaneously. Then, we innovatively propose to integrate pairwise constraints into the process of multi-view clustering by enforcing the learned multi-view representation of must-link samples (cannot-link samples) to be similar (dissimilar), such that the formed clustering architecture can be more credible. Moreover, unlike existing rivals that only preserve the encoders for each heterogeneous branch during networks finetuning, we further propose to tune the intact autoencoders frame that contains both encoders and decoders. In this way, the issue of serious corruption of view-specific and view-shared feature space could be alleviated, making the whole training procedure more stable. Through comprehensive experiments on eight popular image datasets, we demonstrate that our proposed approach performs better than the state-of-the-art multi-view and single-view competitors.