この研究プロジェクトは、画像分類タスクにおける畳み込みニューラルネットワーク(CNN)の影響を研究しています。ネステロフの加速勾配、ドロップアウト、およびマックスアウトネットワークであるReLUを使用して、さまざまなアーキテクチャとトレーニング構成を調査します。 Kaggleコンペティションの一環としてCIFAR-10データセットを使用して、画像内のオブジェクトを識別します。初期結果は、不変特徴検出器として機能することにより、CNNがベースラインよりも優れていることを示しています。さまざまな前処理手順の比較により、グローバルコントラストの正規化とZCAホワイトニングの結果が改善されています。 ReLUはtanhユニットよりもはるかに高速で、シグモイドよりも優れています。トレーニングハイパーパラメーターに関する広範な詳細を提供し、同様の状況で学習を強化するのに役立つ選択の直感を提供します。深さ、特徴マップの数、カーネルのサイズと重複、プーリング領域、さまざまなサブサンプリング手法などの特性を調査する畳み込みニューラルネットワークの4つのモデルを設計します。結果は、畳み込み層と密層の両方で膨大な数のパラメーターを使用する中程度の深さのモデルを支持します。 Maxoutネットワークは、一部のモデルでは整流器よりも優れていますが、完全に接続された層の複雑さが増すと、ノイズが多くなりすぎます。最後のディスカッションでは、結果を説明し、パフォーマンスを改善できる追加のテクニックを提供します。
This research project studies the impact of convolutional neural networks (CNN) in image classification tasks. We explore different architectures and training configurations with the use of ReLUs, Nesterov's accelerated gradient, dropout and maxout networks. We work with the CIFAR-10 dataset as part of a Kaggle competition to identify objects in images. Initial results show that CNNs outperform our baseline by acting as invariant feature detectors. Comparisons between different preprocessing procedures show better results for global contrast normalization and ZCA whitening. ReLUs are much faster than tanh units and outperform sigmoids. We provide extensive details about our training hyperparameters, providing intuition for their selection that could help enhance learning in similar situations. We design 4 models of convolutional neural networks that explore characteristics such as depth, number of feature maps, size and overlap of kernels, pooling regions, and different subsampling techniques. Results favor models of moderate depth that use an extensive number of parameters in both convolutional and dense layers. Maxout networks are able to outperform rectifiers on some models but introduce too much noise as the complexity of the fully-connected layers increases. The final discussion explains our results and provides additional techniques that could improve performance.