このホワイトペーパーでは、スペクトル正則化ディープラーニングメソッドの最近の関心に接続するために、直交ディープニューラルネットワーク(OrthDNN)のアルゴリズムを紹介します。 OrthDNNは、より良い一般化を保証するネットワークウェイトのソリューションプロパティを見つけることを目的とした、現代のDNNの一般化分析によって理論的に動機付けられています。この目的のために、まず、DNNが実際に関心のあるデータ分布のローカルなアイソメトリックであることを証明します。サンプル空間の新しいカバーを使用し、DNNのローカルアイソメトリプロパティを一般化解析に導入することにより、各ネットワークの重み行列の特異値スペクトルにスケールと範囲の両方に敏感な新しい一般化誤差範囲を確立します。最適な境界w.r.t.アイソメトリックの程度は、各重み行列が等しい特異値のスペクトルを持っている場合に達成されます。その中で、直交重み行列または正規直交行または列を持つ非正方形行列が最も簡単な選択であり、OrthDNNのアルゴリズムを示唆します。厳密なOrthDNNと近似のOrthDNNの両方のアルゴリズムを示します。後のアルゴリズムでは、厳密なOrthDNNと同様に機能しますが、計算コストがはるかに低い、特異値境界(SVB)と呼ばれるシンプルで効果的なアルゴリズムを提案します。また、OrthDNNとのバッチ正規化を互換的に使用するために、Bounded Batch Normalization(BBN)を提案します。ベンチマーク画像分類に関する最新のアーキテクチャを使用して、広範な比較研究を実施しています。実験では、OrthDNNの有効性が示されています。
In this paper, we introduce the algorithms of Orthogonal Deep Neural Networks (OrthDNNs) to connect with recent interest of spectrally regularized deep learning methods. OrthDNNs are theoretically motivated by generalization analysis of modern DNNs, with the aim to find solution properties of network weights that guarantee better generalization. To this end, we first prove that DNNs are of local isometry on data distributions of practical interest; by using a new covering of the sample space and introducing the local isometry property of DNNs into generalization analysis, we establish a new generalization error bound that is both scale- and range-sensitive to singular value spectrum of each of networks' weight matrices. We prove that the optimal bound w.r.t. the degree of isometry is attained when each weight matrix has a spectrum of equal singular values, among which orthogonal weight matrix or a non-square one with orthonormal rows or columns is the most straightforward choice, suggesting the algorithms of OrthDNNs. We present both algorithms of strict and approximate OrthDNNs, and for the later ones we propose a simple yet effective algorithm called Singular Value Bounding (SVB), which performs as well as strict OrthDNNs, but at a much lower computational cost. We also propose Bounded Batch Normalization (BBN) to make compatible use of batch normalization with OrthDNNs. We conduct extensive comparative studies by using modern architectures on benchmark image classification. Experiments show the efficacy of OrthDNNs.