ネットワーク内の頂点の潜在表現を学習するための新しいアプローチであるDeepWalkを紹介します。これらの潜在的表現は、社会的関係を連続的なベクトル空間にエンコードします。これは、統計モデルによって簡単に活用されます。 DeepWalkは、言語モデリングおよび監視されていない機能学習(またはディープラーニング)の最近の進歩を単語のシーケンスからグラフに一般化します。 DeepWalkは、切り捨てられたランダムウォークから取得したローカル情報を使用して、ウォークを文の同等物として扱うことで潜在表現を学習します。 BlogCatalog、Flickr、YouTubeなどのソーシャルネットワーク向けの複数のラベルを持つネットワーク分類タスクに関するDeepWalkの潜在的な表現を示します。この結果は、特に情報が欠落している場合に、DeepWalkがネットワークのグローバルなビューを許可する困難なベースラインよりも優れていることを示しています。 DeepWalkの表現は、ラベル付きデータがまばらな場合、競合するメソッドよりも最大10%高いF_1スコアを提供できます。一部の実験では、DeepWalkの表現は、60%少ないトレーニングデータを使用しながら、すべてのベースラインメソッドを上回ることができます。 DeepWalkもスケーラブルです。これは、有用な増分結果を構築するオンライン学習アルゴリズムであり、簡単に並列化できます。これらの品質により、ネットワーク分類や異常検出などの幅広いクラスの実世界のアプリケーションに適しています。
We present DeepWalk, a novel approach for learning latent representations of vertices in a network. These latent representations encode social relations in a continuous vector space, which is easily exploited by statistical models. DeepWalk generalizes recent advancements in language modeling and unsupervised feature learning (or deep learning) from sequences of words to graphs. DeepWalk uses local information obtained from truncated random walks to learn latent representations by treating walks as the equivalent of sentences. We demonstrate DeepWalk's latent representations on several multi-label network classification tasks for social networks such as BlogCatalog, Flickr, and YouTube. Our results show that DeepWalk outperforms challenging baselines which are allowed a global view of the network, especially in the presence of missing information. DeepWalk's representations can provide F_1 scores up to 10% higher than competing methods when labeled data is sparse. In some experiments, DeepWalk's representations are able to outperform all baseline methods while using 60% less training data. DeepWalk is also scalable. It is an online learning algorithm which builds useful incremental results, and is trivially parallelizable. These qualities make it suitable for a broad class of real world applications such as network classification, and anomaly detection.