最小記述長(MDL)の原則は、コルモゴロフの複雑さを使用した証明可能な理想的な推論方法にしっかりと基づいています。モデル選択の一般的な問題、つまり最良のモデル粒度を学習するという問題について、実際に理論がどのように動作するかをテストします。モデルのパフォーマンスは、パラメータの精度の選択など、粒度に大きく依存します。通常、精度が高すぎると偶発的なノイズのモデリングが行われ、精度が低すぎると区別すべきモデルが混乱する可能性があります。この精度はしばしばアドホックに決定されます。 MDLで最適なモデルは、データセットの2つの部分からなるコードを最も圧縮するモデルです。これは「Occam's Razor」を具体化したものです。最初の実験では、課題は、サイズと向きに関係なく、1人の被験者の手書きの孤立した手書き文字を認識することです。キャラクターごとに複数のプロトタイプを使用して、弾性マッチングの新しい修正に基づいて、MDLによって最も可能性が高いと考えられる学習パラメーター(サンプリング間隔の長さ)の最適な予測率が予測されます。 2番目の実験では、3層フィードフォワードニューラルネットワークを使用して2自由度でロボットアームをモデル化することで、最高のモデリングパフォーマンスが得られる非表示層のノード数を決定する必要があります。最適なモデル(見えない例で最適に外挿するモデル)は、MDLによって最も可能性が高いと考えられる隠れ層内のノードの数に対して予測されます。これは、実験で見つかった最適な値と一致することがわかります。
The Minimum Description Length (MDL) principle is solidly based on a provably ideal method of inference using Kolmogorov complexity. We test how the theory behaves in practice on a general problem in model selection: that of learning the best model granularity. The performance of a model depends critically on the granularity, for example the choice of precision of the parameters. Too high precision generally involves modeling of accidental noise and too low precision may lead to confusion of models that should be distinguished. This precision is often determined ad hoc. In MDL the best model is the one that most compresses a two-part code of the data set: this embodies ``Occam's Razor.'' In two quite different experimental settings the theoretical value determined using MDL coincides with the best value found experimentally. In the first experiment the task is to recognize isolated handwritten characters in one subject's handwriting, irrespective of size and orientation. Based on a new modification of elastic matching, using multiple prototypes per character, the optimal prediction rate is predicted for the learned parameter (length of sampling interval) considered most likely by MDL, which is shown to coincide with the best value found experimentally. In the second experiment the task is to model a robot arm with two degrees of freedom using a three layer feed-forward neural network where we need to determine the number of nodes in the hidden layer giving best modeling performance. The optimal model (the one that extrapolizes best on unseen examples) is predicted for the number of nodes in the hidden layer considered most likely by MDL, which again is found to coincide with the best value found experimentally.