近年、適切に定義されたカーネルマトリックスのスペクトル分析は、高次元データでよく見られる低次元構造を抽出するための原則的な方法として登場しました。ここでは、大規模なデータセットを使用する実務家が現在直面している計算上の制限を克服する方法を強調する、線形および非線形の次元削減のためのスペクトル法の紹介を提供します。特に、部分的な情報に基づいてカーネルを構築するために、データのサブサンプリングまたはランドマーク選択プロセスが採用されることが多く、その後にナイストロム拡張と呼ばれる近似スペクトル解析が続きます。この手順を分析するための定量的フレームワークを提供し、ランドマーク選択プロセスを最適化するために設計された実用的なアプローチの範囲でアルゴリズムのパフォーマンスの限界を示すために使用します。低次元の多様体構造が高次元のビデオデータストリームから出現することを示すコンピュータービジョンの分野から引き出された実世界の例によって、これらの境界の実際的な意味を比較します。
In recent years, the spectral analysis of appropriately defined kernel matrices has emerged as a principled way to extract the low-dimensional structure often prevalent in high-dimensional data. Here we provide an introduction to spectral methods for linear and nonlinear dimension reduction, emphasizing ways to overcome the computational limitations currently faced by practitioners with massive datasets. In particular, a data subsampling or landmark selection process is often employed to construct a kernel based on partial information, followed by an approximate spectral analysis termed the Nystrom extension. We provide a quantitative framework to analyse this procedure, and use it to demonstrate algorithmic performance bounds on a range of practical approaches designed to optimize the landmark selection process. We compare the practical implications of these bounds by way of real-world examples drawn from the field of computer vision, whereby low-dimensional manifold structure is shown to emerge from high-dimensional video data streams.