大容量ニューラルネットワークを大幅に改善された精度と低い動的計算コストで訓練する方法を提示します。これを実現するには、詳細なレベルで深層学習アーキテクチャをゲーティングします。個々の畳み込みマップは、ネットワークの機能で条件付きでオン/オフになります。これを実現するために、畳み込みチャネルをきめ細かく制御する新しい残差ブロックアーキテクチャを導入します。また、ニューラルネットワーク内の特徴の限界集約事後分布を事前に指定された事前分布に一致させる一般的に適用可能なツールバッチ整形も導入します。この新しい手法を使用して、ゲートを強制的にデータにより条件付けします。画像分類のためのCIFAR-10およびImageNetデータセット、およびセマンティックセグメンテーションのための都市景観に関する結果を提示します。私たちの結果は、データの平均計算コストがより小さなアーキテクチャと同等であるが、より高い精度で、条件に応じて大規模なアーキテクチャをスリム化できることを示しています。特に、ImageNetでは、ResNet50およびResNet34ゲートネットワークは、同様の複雑さのために、ベースラインResNet18モデルの69.76%の精度と比較して、74.60%および72.55%のトップ1精度を獲得します。また、結果のネットワークは、難しい例ではより多くの機能を使用し、簡単な例ではより少ない機能を使用することを自動的に学習することを示します。
We present a method that trains large capacity neural networks with significantly improved accuracy and lower dynamic computational cost. We achieve this by gating the deep-learning architecture on a fine-grained-level. Individual convolutional maps are turned on/off conditionally on features in the network. To achieve this, we introduce a new residual block architecture that gates convolutional channels in a fine-grained manner. We also introduce a generally applicable tool batch-shaping that matches the marginal aggregate posteriors of features in a neural network to a pre-specified prior distribution. We use this novel technique to force gates to be more conditional on the data. We present results on CIFAR-10 and ImageNet datasets for image classification, and Cityscapes for semantic segmentation. Our results show that our method can slim down large architectures conditionally, such that the average computational cost on the data is on par with a smaller architecture, but with higher accuracy. In particular, on ImageNet, our ResNet50 and ResNet34 gated networks obtain 74.60% and 72.55% top-1 accuracy compared to the 69.76% accuracy of the baseline ResNet18 model, for similar complexity. We also show that the resulting networks automatically learn to use more features for difficult examples and fewer features for simple examples.