グラフクラスタリングは、ネットワーク内のグループまたはコミュニティを検出します。オートエンコーダー(AE)などの深層学習手法は、効果的なクラスタリングとダウンストリーム表現を抽出しますが、豊富な構造情報を組み込むことはできません。グラフニューラルネットワーク(GNN)はグラフ構造のエンコードで大きな成功を収めていますが、畳み込みまたは注意の変形に基づく一般的なGNNは、過度の平滑化、ノイズ、異形性に悩まされ、計算コストが高く、通常、完全グラフが存在する必要があります。代わりに、自己監視型対照グラフクラスタリング(SCGC)を提案します。これは、対照的な損失信号を介してグラフ構造を課し、識別ノード表現と反復的に洗練されたソフトクラスターラベルを学習します。また、より効果的で斬新な、より豊富な構造情報を融合するための影響増強対照(IAC)損失と、元のモデルパラメーターの半分を備えたSCGC*を提案します。 SCGC(*)は、単純な線形ユニットを使用すると高速になり、従来のGNNの畳み込みと注意を完全に排除しながら、構造を効率的に組み込みます。レイヤーの深さに対して不浸透性であり、過度のスムージング、不正確なエッジ、および異形性に対して堅牢です。これは、バッチ処理によってスケーラブルであり、以前の多くのGNNモデルの制限であり、簡単に並列化できます。画像、センサーデータ、テキスト、引用ネットワークなど、幅広いベンチマークグラフデータセットで、最先端技術を大幅に改善しています。具体的には、DBLPのARIで20%、NMIで18%です。トレーニング時間は全体で55%短縮され、推論時間は全体で81%短縮されました。私たちのコードはhttps://github.com/gayanku/SCGCで入手できます
Graph clustering discovers groups or communities within networks. Deep learning methods such as autoencoders (AE) extract effective clustering and downstream representations but cannot incorporate rich structural information. While Graph Neural Networks (GNN) have shown great success in encoding graph structure, typical GNNs based on convolution or attention variants suffer from over-smoothing, noise, heterophily, are computationally expensive and typically require the complete graph being present. Instead, we propose Self-Supervised Contrastive Graph Clustering (SCGC), which imposes graph-structure via contrastive loss signals to learn discriminative node representations and iteratively refined soft cluster labels. We also propose SCGC*, with a more effective, novel, Influence Augmented Contrastive (IAC) loss to fuse richer structural information, and half the original model parameters. SCGC(*) is faster with simple linear units, completely eliminate convolutions and attention of traditional GNNs, yet efficiently incorporates structure. It is impervious to layer depth and robust to over-smoothing, incorrect edges and heterophily. It is scalable by batching, a limitation in many prior GNN models, and trivially parallelizable. We obtain significant improvements over state-of-the-art on a wide range of benchmark graph datasets, including images, sensor data, text, and citation networks efficiently. Specifically, 20% on ARI and 18% on NMI for DBLP; overall 55% reduction in training time and overall, 81% reduction on inference time. Our code is available at : https://github.com/gayanku/SCGC