arXiv reaDer
大規模データのアフィニティ伝播クラスタリングのローカルおよびグローバルアプローチ
Local and global approaches of affinity propagation clustering for large scale data
 最近、「アフィニティ伝播」(AP)と呼ばれる新しいクラスタリングアルゴリズムが提案されました。これは、データポイント間でメッセージを渡すことで、まばらに関連するデータを効率的にクラスター化します。ただし、多くの場合、類似性がまばらではない大規模データをクラスター化します。このホワイトペーパーでは、大規模データを高密度の類似性マトリックスでグループ化するためのAPの2つのバリアントを示します。ローカルアプローチはパーティションアフィニティ伝播(PAP)であり、グローバルメソッドはランドマークアフィニティ伝播(LAP)です。 PAPは最初にデータのサブセットでメッセージを渡し、次にそれらを反復の初期ステップの数としてマージします。クラスタリングの反復回数を効果的に減らすことができます。 LAPは最初にランドマークデータポイント間でメッセージを渡し、次に非ランドマークデータポイントをクラスター化します。これは、クラスタリングを高速化するための大規模な大域的近似方法です。ランダムデータポイント、多様な部分空間、顔の画像、中国の書道など、多くのデータセットで実験が行われ、結果は2つのアプローチが実行可能で実用的であることを示しています。
Recently a new clustering algorithm called 'affinity propagation' (AP) has been proposed, which efficiently clustered sparsely related data by passing messages between data points. However, we want to cluster large scale data where the similarities are not sparse in many cases. This paper presents two variants of AP for grouping large scale data with a dense similarity matrix. The local approach is partition affinity propagation (PAP) and the global method is landmark affinity propagation (LAP). PAP passes messages in the subsets of data first and then merges them as the number of initial step of iterations; it can effectively reduce the number of iterations of clustering. LAP passes messages between the landmark data points first and then clusters non-landmark data points; it is a large global approximation method to speed up clustering. Experiments are conducted on many datasets, such as random data points, manifold subspaces, images of faces and Chinese calligraphy, and the results demonstrate that the two approaches are feasible and practicable.
updated: Fri Oct 09 2009 04:55:41 GMT+0000 (UTC)
published: Fri Oct 09 2009 04:55:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト