多くのコンピュータビジョンアプリケーションで優れたパフォーマンスを得るには、高い画像解像度が不可欠です。ただし、CNNの計算の複雑さは、入力画像サイズの増加に伴って大幅に増大します。ここでは、ほとんどの場合、同じ数のパラメーターまたは/およびFLOPSを使用しながら、より高い入力解像度でより高い精度を達成するようにネットワークを変更できることを示します。考え方はEfficientNetの論文に似ていますが、ネットワークの幅、深さ、解像度を同時に最適化するのではなく、ここでは入力解像度のみに焦点を当てています。これにより、検索スペースがはるかに小さくなり、計算予算が少ないレジームに適しています。さらに重要なことに、モデルパラメータの数(したがってモデルの容量)を制御することにより、精度の追加の利点が実際に入力解像度が高いことによるものであることを示します。 MNIST、Fashion MNIST、およびCIFAR10データセットに関する予備的な実証的調査は、提案されたアプローチの効率を示しています。
High image resolution is critical to obtain a good performance in many computer vision applications. Computational complexity of CNNs, however, grows significantly with the increase in input image size. Here, we show that it is almost always possible to modify a network such that it achieves higher accuracy at a higher input resolution while having the same number of parameters or/and FLOPS. The idea is similar to the EfficientNet paper but instead of optimizing network width, depth and resolution simultaneously, here we focus only on input resolution. This makes the search space much smaller which is more suitable for low computational budget regimes. More importantly, by controlling for the number of model parameters (and hence model capacity), we show that the additional benefit in accuracy is indeed due to the higher input resolution. Preliminary empirical investigation over MNIST, Fashion MNIST, and CIFAR10 datasets demonstrates the efficiency of the proposed approach.