スキップ接続は、ディープニューラルネットワークのパフォーマンスと収束を改善するために広く使用されている手法であり、ニューラルネットワークレイヤーを介して線形コンポーネントを伝播することにより、非線形性による最適化の難しさを軽減すると考えられています。ただし、別の観点からは、入力と出力の間の変調メカニズムと見なすこともでき、入力は事前定義された値1でスケーリングされます。この作業では、スケールがスキップ接続の有効性にどのように影響するかを調査し、スケールのわずかな調整が、正規化によって対処できるモデルの深さに沿って、疑似勾配の爆発または消失につながることを明らかにします。特に、レイヤーの正規化は、プレーンスキップ接続よりも一貫した改善をもたらします。調査結果に触発されて、レイヤーの正規化でスキップ接続を再帰的に適用することにより、入力のスケールを適応的に調整することをさらに提案します。これにより、パフォーマンスが大幅に向上し、機械翻訳と画像分類データセットの両方を含むさまざまなタスクにわたって一般化されます。
Skip connection, is a widely-used technique to improve the performance and the convergence of deep neural networks, which is believed to relieve the difficulty in optimization due to non-linearity by propagating a linear component through the neural network layers. However, from another point of view, it can also be seen as a modulating mechanism between the input and the output, with the input scaled by a pre-defined value one. In this work, we investigate how the scale factors in the effectiveness of the skip connection and reveal that a trivial adjustment of the scale will lead to spurious gradient exploding or vanishing in line with the deepness of the models, which could be addressed by normalization, in particular, layer normalization, which induces consistent improvements over the plain skip connection. Inspired by the findings, we further propose to adaptively adjust the scale of the input by recursively applying skip connection with layer normalization, which promotes the performance substantially and generalizes well across diverse tasks including both machine translation and image classification datasets.