畳み込みニューラルネットワーク(CNN)ベースのアプリケーションはユビキタスになり、適切な正則化が非常に必要になります。大規模なニューラルネットワークモデルの過剰適合を防ぐために、ドロップアウトは効率的な正則化手法として実際に広く使用されています。ただし、最近の多くの研究では、標準的なドロップアウトはCNNのトレーニングに効果がないか、有害でさえあることが示されています。このホワイトペーパーでは、CNNの既存のドロップアウトベースの正則化手法を改善するために、この問題を再検討し、さまざまなドロップアウトバリアントを調べます。標準的なドロップアウトの失敗は、ドロップアウトの確率と後続のバッチ正規化(BN)の間の競合に起因すると考え、BNの代わりに畳み込み演算の直前にドロップアウト操作を配置することで競合を減らすか、または置き換えてこの問題に完全に対処しますグループ正規化(GN)付きのBN。さらに、構造的により適したドロップアウトバリアントDrop-Conv2dを導入します。これは、ディープCNNにより効率的で効果的な正則化を提供します。これらのドロップアウトバリアントは、CNNのビルディングブロックに容易に統合でき、既存のディープラーニングプラットフォームに実装できます。 CIFAR、SVHN、ImageNetなどのベンチマークデータセットを使った広範な実験が行われ、既存のビルディングブロックと提案されたビルディングブロックをドロップアウトトレーニングで比較します。結果は、私たちのビルディングブロックが最新のCNNを大幅に上回っていることを示しています。これは、主に、より良い正則化と暗黙的なモデルアンサンブル効果が原因です。
Convolutional Neural networks (CNNs) based applications have become ubiquitous, where proper regularization is greatly needed. To prevent large neural network models from overfitting, dropout has been widely used as an efficient regularization technique in practice. However, many recent works show that the standard dropout is ineffective or even detrimental to the training of CNNs. In this paper, we revisit this issue and examine various dropout variants in an attempt to improve existing dropout-based regularization techniques for CNNs. We attribute the failure of standard dropout to the conflict between the stochasticity of dropout and its following Batch Normalization (BN), and propose to reduce the conflict by placing dropout operations right before the convolutional operation instead of BN, or totally address this issue by replacing BN with Group Normalization (GN). We further introduce a structurally more suited dropout variant Drop-Conv2d, which provides more efficient and effective regularization for deep CNNs. These dropout variants can be readily integrated into the building blocks of CNNs and implemented in existing deep learning platforms. Extensive experiments on benchmark datasets including CIFAR, SVHN and ImageNet are conducted to compare the existing building blocks and the proposed ones with dropout training. Results show that our building blocks improve over state-of-the-art CNNs significantly, which is mainly due to the better regularization and implicit model ensemble effect.