制限付きボルツマンマシンの深い信念ネットワークを、13シーン、15シーン、Caltech 256のデータベースから取得したふるい機能の単語のバッグに適用し、その動作とパフォーマンスを実験的に研究します。システムが事前にトレーニングされている場合、監視フェーズの最終パフォーマンスにはるかに早く到達することがわかります。監視対象データセットを固定したまま、より大きなデータセットでシステムを事前にトレーニングすると、パフォーマンスが向上します(13シーンの場合)。教師なしの事前トレーニングの後、いくつかのカテゴリの近似的な明示的表現を形成するニューロンが発生します(つまり、このカテゴリではほとんどアクティブになります)。最後の3つの事実は、教師なしトレーニングが実際にこれらのデータの構造を発見することを示唆しています。事前トレーニングは、まったく異なるデータセット(Corelデータセットを使用)で実行でき、監視フェーズは(15シーンデータセットで)同様に実行されることがわかります。これにより、システムを一度(たとえば、工場で)事前に訓練し、その後、多くの監視された問題に適用して、より速く学習できると推測されます。単一の隠れ層システムで最高のパフォーマンスが得られ、シフトフィーチャのヒストグラムがそれほど高度な構造を持たないことが示唆されます。全体的なパフォーマンスはほぼ同じですが、サポートベクターマシンと空間ピラミッドマッチングのパフォーマンスよりもわずかに劣ります。
We apply deep belief networks of restricted Boltzmann machines to bags of words of sift features obtained from databases of 13 Scenes, 15 Scenes and Caltech 256 and study experimentally their behavior and performance. We find that the final performance in the supervised phase is reached much faster if the system is pre-trained. Pre-training the system on a larger dataset keeping the supervised dataset fixed improves the performance (for the 13 Scenes case). After the unsupervised pre-training, neurons arise that form approximate explicit representations for several categories (meaning they are mostly active for this category). The last three facts suggest that unsupervised training really discovers structure in these data. Pre-training can be done on a completely different dataset (we use Corel dataset) and we find that the supervised phase performs just as good (on the 15 Scenes dataset). This leads us to conjecture that one can pre-train the system once (e.g. in a factory) and subsequently apply it to many supervised problems which then learn much faster. The best performance is obtained with single hidden layer system suggesting that the histogram of sift features doesn't have much high level structure. The overall performance is almost equal, but slightly worse then that of the support vector machine and the spatial pyramidal matching.