Boosting through Optimization of Margin Distributions
 ブースティングは、過去10年間で多くの研究の注目を集めています。ブースティングアルゴリズムの成功は、マージン理論の観点から解釈できます。最近、分類器の一般化エラーは、トレーニングデータのマージン分布を明示的に考慮することで取得できることが示されています。実際の現在のブースティングアルゴリズムのほとんどは、通常、凸損失関数を最適化し、マージン分布を利用しません。この作業では、平均マージンを直接最大化し、同時にマージン分散を最小化する、マージン分布ブースティング(MDBoost)と呼ばれる新しいブースティングアルゴリズムを設計します。これにより、マージンの分布が最適化されます。 MDBoostを実装するために、列生成に基づく完全に修正された最適化アルゴリズムが提案されています。 UCIデータセットの実験は、ほとんどの場合、MDBoostがAdaBoostおよびLPBoostよりも優れていることを示しています。
Boosting has attracted much research attention in the past decade. The success of boosting algorithms may be interpreted in terms of the margin theory. Recently it has been shown that generalization error of classifiers can be obtained by explicitly taking the margin distribution of the training data into account. Most of the current boosting algorithms in practice usually optimizes a convex loss function and do not make use of the margin distribution. In this work we design a new boosting algorithm, termed margin-distribution boosting (MDBoost), which directly maximizes the average margin and minimizes the margin variance simultaneously. This way the margin distribution is optimized. A totally-corrective optimization algorithm based on column generation is proposed to implement MDBoost. Experiments on UCI datasets show that MDBoost outperforms AdaBoost and LPBoost in most cases.
updated: Wed Jan 06 2010 09:00:26 GMT+0000 (UTC)
published: Tue Apr 14 2009 01:57:12 GMT+0000 (UTC)
