一部のミニバッチでは、a)ダウンサンプリングを介して入力画像の解像度を縮小し、b)畳み込みフィルターのプーリングを介してフォワードパス操作を削減する方法で、畳み込みネットワーク(CNN)のトレーニング時間を短縮します。トレーニングはインターリーブ方式で実行されます。一部のバッチは、元のネットワークパラメーターを使用した通常のフォワードおよびバックプロパゲーションパスを受けますが、他のバッチは、プールされたフィルターとダウンサンプリングされた入力によるフォワードパスを受けます。プーリングは微分可能であるため、プールされたフィルターの勾配は、標準のパラメーター更新のために元のネットワークパラメーターに伝播します。後者のフェーズでは、フィーチャマップとフィルターの空間次元が減少するため、必要な浮動小数点演算とストレージが少なくなります。重要な考え方は、このフェーズでは更新がより小さく近似されるため、学習が遅くなりますが、大幅にコストが削減され、その後、元のネットワークパラメーターを洗練段階として使用するパスが続くということです。ダウンマッピングが発生する頻度とバッチを決定することは、確率的または決定論的に行うことができ、トレーニングハイパーパラメーター自体として定義できます。残留アーキテクチャの実験により、検証精度の損失を最小限に抑えながら、トレーニング時間を最大23%削減できることが示されています。
We reduce training time in convolutional networks (CNNs) with a method that, for some of the mini-batches: a) scales down the resolution of input images via downsampling, and b) reduces the forward pass operations via pooling on the convolution filters. Training is performed in an interleaved fashion; some batches undergo the regular forward and backpropagation passes with original network parameters, whereas others undergo a forward pass with pooled filters and downsampled inputs. Since pooling is differentiable, the gradients of the pooled filters propagate to the original network parameters for a standard parameter update. The latter phase requires fewer floating point operations and less storage due to the reduced spatial dimensions in feature maps and filters. The key idea is that this phase leads to smaller and approximate updates and thus slower learning, but at significantly reduced cost, followed by passes that use the original network parameters as a refinement stage. Deciding how often and for which batches the downsmapling occurs can be done either stochastically or deterministically, and can be defined as a training hyperparameter itself. Experiments on residual architectures show that we can achieve up to 23% reduction in training time with minimal loss in validation accuracy.