arXiv reaDer
ニューラルネットワークにおける内在次元、永続的なホモロジーおよび一般化
Intrinsic Dimension, Persistent Homology and Generalization in Neural Networks
統計的学習理論の古典的な知恵に反して、現代のディープニューラルネットワークは、通常、数百万のパラメーターを含んでいますが、一般化されています。最近、反復最適化アルゴリズムの軌道がフラクタル構造を持つことができ、それらの汎化誤差がそのようなフラクタルの複雑さに形式的にリンクできることが示されました。この複雑さは、フラクタルの内在次元によって測定されます。これは通常、ネットワーク内のパラメーターの数よりもはるかに少ない量です。この視点は、過剰パラメーター化されたネットワークが過剰適合しない理由の説明を提供しますが、内在次元の計算(たとえば、トレーニング中の一般化の監視)は、既存の方法が通常中程度の周囲次元でも失敗する、悪名高い難しいタスクです。この研究では、トポロジーデータ分析(TDA)のレンズからこの問題を検討し、厳密な数学的基礎に基づいて構築された一般的な計算ツールを開発します。学習理論とTDAの間に新しい関係を作ることにより、最初に、汎化誤差が「永続的ホモロジー次元」(PHD)と呼ばれる概念の観点から同等に制限されることを示します。ここで、以前の作業と比較して、私たちのアプローチは必要ありません。トレーニングダイナミクスに関する追加の幾何学的または統計的仮定。次に、最近確立された理論結果とTDAツールを利用して、最新のディープニューラルネットワークのスケールでPHDを推定する効率的なアルゴリズムを開発し、ディープラーニングの一般化を理解するのに役立つ視覚化ツールをさらに提供します。私たちの実験は、提案されたアプローチが、汎化誤差を予測するさまざまな設定でネットワークの内在次元を効率的に計算できることを示しています。
Disobeying the classical wisdom of statistical learning theory, modern deep neural networks generalize well even though they typically contain millions of parameters. Recently, it has been shown that the trajectories of iterative optimization algorithms can possess fractal structures, and their generalization error can be formally linked to the complexity of such fractals. This complexity is measured by the fractal's intrinsic dimension, a quantity usually much smaller than the number of parameters in the network. Even though this perspective provides an explanation for why overparametrized networks would not overfit, computing the intrinsic dimension (e.g., for monitoring generalization during training) is a notoriously difficult task, where existing methods typically fail even in moderate ambient dimensions. In this study, we consider this problem from the lens of topological data analysis (TDA) and develop a generic computational tool that is built on rigorous mathematical foundations. By making a novel connection between learning theory and TDA, we first illustrate that the generalization error can be equivalently bounded in terms of a notion called the 'persistent homology dimension' (PHD), where, compared with prior work, our approach does not require any additional geometrical or statistical assumptions on the training dynamics. Then, by utilizing recently established theoretical results and TDA tools, we develop an efficient algorithm to estimate PHD in the scale of modern deep neural networks and further provide visualization tools to help understand generalization in deep learning. Our experiments show that the proposed approach can efficiently compute a network's intrinsic dimension in a variety of settings, which is predictive of the generalization error.
updated: Thu Nov 25 2021 17:06:15 GMT+0000 (UTC)
published: Thu Nov 25 2021 17:06:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト