近年の特徴は、相互に接続されたさまざまなセンサーやデバイスによって驚異的な速度で生成される、これまでにない量の利用可能なネットワークデータです。この高スループットの生成には、大量のネットワークデータを格納、取得、理解、処理するための新しい効果的な方法の開発が必要です。この論文では、Szemerédiの規則性補題(RL)に基づいて大規模なグラフを要約するフレームワークを導入することにより、この課題に取り組みます。 RLから得られる分割により、元のグラフの基本的な構造特性の多くを継承するサマリーが生成されます。まず、RLのヒューリスティックバージョンを拡張して、RLの効率と堅牢性を向上させます。提案されたアルゴリズムを使用して、グラフベースのクラスタリングおよび画像セグメンテーションタスクに対処します。論文の第2部では、再構成エラーとノイズフィルタリングの両方に関して要約品質の改善を特徴とする新しいヒューリスティックアルゴリズムを紹介します。提案されたヒューリスティックを使用して、類似性の基準の下で定義されたグラフ検索問題に対処します。最後に、規則性補題、確率論的ブロックモデル、最小記述長の間のリンケージを調べます。この研究は、尤度最大化を使用して適合された確率的ブロックモデルに基づくグラフ分解アルゴリズムを開発するための原理的な方法を提供します。
Recent years are characterized by an unprecedented quantity of available network data which are produced at an astonishing rate by an heterogeneous variety of interconnected sensors and devices. This high-throughput generation calls for the development of new effective methods to store, retrieve, understand and process massive network data. In this thesis, we tackle this challenge by introducing a framework to summarize large graphs based on Szemerédi's Regularity Remma (RL), which roughly states that any sufficiently large graph can almost entirely be partitioned into a bounded number of random-like bipartite graphs. The partition resulting from the RL gives rise to a summary, which inherits many of the essential structural properties of the original graph. We first extend an heuristic version of the RL to improve its efficiency and its robustness. We use the proposed algorithm to address graph-based clustering and image segmentation tasks. In the second part of the thesis, we introduce a new heuristic algorithm which is characterized by an improvement of the summary quality both in terms of reconstruction error and of noise filtering. We use the proposed heuristic to address the graph search problem defined under a similarity measure. Finally, we study the linkage among the regularity lemma, the stochastic block model and the minimum description length. This study provide us a principled way to develop a graph decomposition algorithm based on stochastic block model which is fitted using likelihood maximization.