arXiv reaDer
情報事前分布を備えた動的正則化
Dynamic Regularizer with an Informative Prior
 正則化方法、特にL_1やL_2のような重みを直接変更する方法は、多くの学習アルゴリズムの不可欠な部分です。上記の両方の正則化は、パラメータ空間で特定の事前分布を仮定することによって定式化され、これらの仮定は、場合によっては、パラメータ空間でスパース性を誘発します。正則化は、損失関数に適切な項を導入することにより、データセットまたはパラメーター空間に対する信念の伝達に役立ちます。あらゆる種類の定式化は特定の信念のセットを表します。L_1正則化はパラメーター空間がスパースであるべきことを伝え、L_2正則化はパラメーター空間が境界があり連続的であることを伝えます。これらのレギュラーは、これらの固有の信念を表現するために特定の事前を活用します。事前分布がパラメーターの動作にどのように影響するか、およびデータセットに基づいて事前分布を更新する方法をよりよく理解することは、関数推定器の一般化機能の改善に大きく貢献できます。この作業では、ガウスおよびラプラシアンの事前分布のみに基づく正則化器と比較して、実験的にスパース性を誘発するという点でより良い結果を示す正則化ペナルティを定式化するために、弱く有益な事前分布を導入し、さらにそれを有益な事前分布に拡張します。実験的に、適応された事前に基づいたレギュラーがネットワークの一般化機能を改善することを検証します。 MNISTおよびCIFAR-10データセットでの提案方法のパフォーマンスを示します。
Regularization methods, specifically those which directly alter weights like L_1 and L_2, are an integral part of many learning algorithms. Both the regularizers mentioned above are formulated by assuming certain priors in the parameter space and these assumptions, in some cases, induce sparsity in the parameter space. Regularizers help in transferring beliefs one has on the dataset or the parameter space by introducing adequate terms in the loss function. Any kind of formulation represents a specific set of beliefs: L_1 regularization conveys that the parameter space should be sparse whereas L_2 regularization conveys that the parameter space should be bounded and continuous. These regularizers in turn leverage certain priors to express these inherent beliefs. A better understanding of how the prior affects the behavior of the parameters and how the priors can be updated based on the dataset can contribute greatly in improving the generalization capabilities of a function estimator. In this work, we introduce a weakly informative prior and then further extend it to an informative prior in order to formulate a regularization penalty, which shows better results in terms of inducing sparsity experimentally, when compared to regularizers based only on Gaussian and Laplacian priors. Experimentally, we verify that a regularizer based on an adapted prior improves the generalization capabilities of any network. We illustrate the performance of the proposed method on the MNIST and CIFAR-10 datasets.
updated: Thu Oct 31 2019 03:40:03 GMT+0000 (UTC)
published: Thu Oct 31 2019 03:40:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト