深さは、畳み込みニューラルネットワーク(CNN)の成功の背後にある重要な要因の1つです。 ResNet以来、勾配の消失の問題は主にスキップ接続の導入によって対処されているため、非常に深いCNNをトレーニングできます。ただし、深さが非常に大きい場合、中間層(特に浅い層)は、長い逆伝播経路を介した深刻な変換のために、損失から十分な監視を受けることができない場合があります。その結果、中間層の表現力は非常に弱くなり、モデルはパフォーマンスが制限された非常に冗長になります。このホワイトペーパーでは、まず既存の逆伝搬(BP)メソッドの監視消失問題を調査します。次に、ネットワークの中間層に追加された複数の補助損失に依存するマルチウェイBP(MW-BP)と呼ばれる効果的な方法で対処することを提案します。提案されたMW-BPメソッドは、ResNetやMobileNetなど、わずかな変更を加えたほとんどの深いアーキテクチャに適用できます。私たちの方法は、既存の方法よりもはるかにコンパクトなモデル(「Mw + Architecture」で表される)を頻繁に生成します。たとえば、44層のMwResNet-44は、CIFAR-10およびCIFAR-100の110層のResNet-110よりも優れたパフォーマンスを発揮します。さらに重要なことに、結果として得られるモデルは、最新のモデル圧縮方法によって得られた軽量モデルよりも優れています。最後に、我々の方法は本質的に同時に異なる深さを持つ複数のコンパクトなモデルを生成します。これはモデルの選択に役立ちます。
Depth is one of the key factors behind the success of convolutional neural networks (CNNs). Since ResNet, we are able to train very deep CNNs as the gradient vanishing issue has been largely addressed by the introduction of skip connections. However, we observe that, when the depth is very large, the intermediate layers (especially shallow layers) may fail to receive sufficient supervision from the loss due to the severe transformation through a long backpropagation path. As a result, the representation power of intermediate layers can be very weak and the model becomes very redundant with limited performance. In this paper, we first investigate the supervision vanishing issue in existing backpropagation (BP) methods. And then, we propose to address it via an effective method, called Multi-way BP (MW-BP), which relies on multiple auxiliary losses added to the intermediate layers of the network. The proposed MW-BP method can be applied to most deep architectures with slight modifications, such as ResNet and MobileNet. Our method often gives rise to much more compact models (denoted by "Mw+Architecture") than existing methods. For example, MwResNet-44 with 44 layers performs better than ResNet-110 with 110 layers on CIFAR-10 and CIFAR-100. More critically, the resultant models even outperform the light models obtained by state-of-the-art model compression methods. Last, our method inherently produces multiple compact models with different depths at the same time, which is helpful for model selection.