Scale Calibrated Training: Improving Generalization of Deep Networks via Scale-Specific Normalization
標準の畳み込みニューラルネットワーク(CNN)では、トレーニング段階とテスト段階の両方で一貫した画像解像度が必要です。ただし、実際には、高速な推論のために、より小さい画像サイズでテストする必要があります。高解像度画像でトレーニングされたネットワークで低解像度画像を簡単に評価すると、標準のCNNアーキテクチャで壊滅的な精度の低下が生じることを示します。ネットワークがさまざまな入力のスケールから同時に学習できるようにする、Scale Calibrated Training(SCT)と呼ばれる新しいトレーニング方式を提案します。 SCTの利点を活用することにより、単一のネットワークは、複数のテストスケールに対応して、テスト時にまともな精度を提供できます。私たちの分析では、驚くべきことに、バニラバッチの正規化によってSCTのパフォーマンスが最適化されない可能性があることがわかりました。そのため、Scale-Specific Batch Normalizationと呼ばれる新しい正規化スキームが、バッチ正規化の代わりにSCTに装備されています。実験結果は、224と128の画像サイズでテストすると、SCTがImageNet上の単一のResnet-50の精度を1.7%と11.5%精度向上させることを示しています。
Standard convolutional neural networks(CNNs) require consistent image resolutions in both training and testing phase. However, in practice, testing with smaller image sizes is necessary for fast inference. We show that trivially evaluating low-resolution images on networks trained with high-resolution images results in a catastrophic accuracy drop in standard CNN architectures. We propose a novel training regime called Scale calibrated Training(SCT) which allows networks to learn from various scales of input simultaneously. By taking advantages of SCT, single network can provide decent accuracy at test time in response to multiple test scales. In our analysis, we surprisingly find that vanilla batch normalization can lead to sub-optimal performance in SCT. Therefore, a novel normalization scheme called Scale-Specific Batch Normalization is equipped to SCT in replacement of batch normalization. Experiment results show that SCT improves accuracy of single Resnet-50 on ImageNet by 1.7% and 11.5% accuracy when testing on image sizes of 224 and 128 respectively.
updated: Mon Sep 07 2020 15:09:01 GMT+0000 (UTC)
published: Sat Aug 31 2019 10:01:37 GMT+0000 (UTC)
