arXiv reaDer
主成分分析によるデータの固有の次元推定
Intrinsic dimension estimation of data by principal component analysis
 データの固有の次元を推定することは、パターン認識と統計の古典的な問題です。主成分分析(PCA)は、線形構造を持つデータセットの次元を検出するための強力なツールです。ただし、データの構造が非線形の場合は無効になります。本論文では、非線形構造を持つデータの固有の次元を推定するための新しいPCAベースの方法を提案します。この方法は、最初にデータセットの最小カバーを見つけ、次にカバーの各サブセットでローカルにPCAを実行し、最後にすべての小さな近傍領域のデータ分散をチェックすることで推定結果を提供します。提案された方法は、その固有の次元を推定するためにデータセット全体を利用し、インクリメンタル学習に便利です。さらに、新しいPCAプロシージャは、データ内のノイズを除去し、近傍領域のサイズが増加する安定した推定値に収束します。合成および実世界のデータセットの実験は、提案された方法の有効性を示しています。
Estimating intrinsic dimensionality of data is a classic problem in pattern recognition and statistics. Principal Component Analysis (PCA) is a powerful tool in discovering dimensionality of data sets with a linear structure; it, however, becomes ineffective when data have a nonlinear structure. In this paper, we propose a new PCA-based method to estimate intrinsic dimension of data with nonlinear structures. Our method works by first finding a minimal cover of the data set, then performing PCA locally on each subset in the cover and finally giving the estimation result by checking up the data variance on all small neighborhood regions. The proposed method utilizes the whole data set to estimate its intrinsic dimension and is convenient for incremental learning. In addition, our new PCA procedure can filter out noise in data and converge to a stable estimation with the neighborhood region size increasing. Experiments on synthetic and real world data sets show effectiveness of the proposed method.
updated: Wed Feb 10 2010 10:16:57 GMT+0000 (UTC)
published: Wed Feb 10 2010 10:16:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト