ドロップアウトは、ディープニューラルネットワーク(DNN)のより良い一般化を実現するためのシンプルですが効率的な正則化手法です。したがって、DNNに基づくタスクで広く使用されています。トレーニング中、ドロップアウトはニューロンの一部をランダムに破棄して、過剰適合を回避します。このホワイトペーパーでは、トレーニングを加速し、元のドロップアウトよりも一般化を改善するための、マルチサンプルドロップアウトと呼ばれる拡張ドロップアウト手法を紹介します。元のドロップアウトは、各トレーニング反復の入力からランダムに選択されたサブセット(ドロップアウトサンプルと呼ばれます)を作成しますが、マルチサンプルドロップアウトは複数のドロップアウトサンプルを作成します。サンプルごとに損失が計算され、サンプルの損失が平均化されて最終的な損失が得られます。この手法は、完全に接続された複製されたレイヤー間で重みを共有しながら、ドロップアウトレイヤーの後にネットワークの一部を複製することで簡単に実装できます。 ImageNet、CIFAR-10、CIFAR-100などの画像分類タスクを使用した実験結果は、マルチサンプルドロップアウトがトレーニングを加速することを示しました。さらに、マルチサンプルドロップアウトを使用してトレーニングされたネットワークは、元のドロップアウトを使用してトレーニングされたネットワークと比較して、より低いエラー率を達成しました。重複した操作による追加の計算コストは、深い畳み込みネットワークでは重要ではありません。これは、計算時間のほとんどが、重複していないドロップアウト層の前の畳み込み層で消費されるためです。
Dropout is a simple but efficient regularization technique for achieving better generalization of deep neural networks (DNNs); hence it is widely used in tasks based on DNNs. During training, dropout randomly discards a portion of the neurons to avoid overfitting. This paper presents an enhanced dropout technique, which we call multi-sample dropout, for both accelerating training and improving generalization over the original dropout. The original dropout creates a randomly selected subset (called a dropout sample) from the input in each training iteration while the multi-sample dropout creates multiple dropout samples. The loss is calculated for each sample, and then the sample losses are averaged to obtain the final loss. This technique can be easily implemented by duplicating a part of the network after the dropout layer while sharing the weights among the duplicated fully connected layers. Experimental results using image classification tasks including ImageNet, CIFAR-10, and CIFAR-100 showed that multi-sample dropout accelerates training. Moreover, the networks trained using multi-sample dropout achieved lower error rates compared to networks trained with the original dropout. The additional computation cost due to the duplicated operations is not significant for deep convolutional networks because most of the computation time is consumed in the convolution layers before the dropout layer, which are not duplicated.