統計物理学に基づいた半教師あり学習への新しいアプローチを提示します。半教師あり学習の分野での以前の研究のほとんどは、特定のエネルギー関数を最小化することでポイントを分類します。これは、最小のk-wayカットソリューションに対応します。これらの方法とは対照的に、より正確でロバストな結果が得られる唯一の最小k-wayカットではなく、分類の分布を推定します。このアプローチは、半教師あり学習に使用されるすべてのエネルギー関数に適用できます。この方法は、マルチカノニカルマルコフチェーンモンテカルロアルゴリズムを使用したサンプリングに基づいており、クラスへのポイントのソフトな割り当てを可能にし、まだ見えないクラスタイプに対処するための簡単な確率的解釈を備えています。推奨されるアプローチは、おもちゃのデータセットと、遺伝子発現の2つの実際のデータセットで実証されています。
We present a novel approach to semi-supervised learning which is based on statistical physics. Most of the former work in the field of semi-supervised learning classifies the points by minimizing a certain energy function, which corresponds to a minimal k-way cut solution. In contrast to these methods, we estimate the distribution of classifications, instead of the sole minimal k-way cut, which yields more accurate and robust results. Our approach may be applied to all energy functions used for semi-supervised learning. The method is based on sampling using a Multicanonical Markov chain Monte-Carlo algorithm, and has a straightforward probabilistic interpretation, which allows for soft assignments of points to classes, and also to cope with yet unseen class types. The suggested approach is demonstrated on a toy data set and on two real-life data sets of gene expression.