畳み込みニューラルネットワーク(CNN)の有効性は、翻訳の等分散性の組み込みプロパティに実質的に起因しています。ただし、CNNには、他のタイプの変換を処理するメカニズムが組み込まれていません。この作業では、オブジェクトとカメラの間の距離が変化するため、さまざまなタスクで定期的に表示されるスケールの変更に注意します。最初に、操縦可能なフィルターを使用してスケール等価な畳み込みネットワークを構築するための一般理論を紹介します。スケールコンボリューションを開発し、他の一般的なブロックをスケール等化するように一般化します。提案手法の計算効率と数値安定性を示します。提案されたモデルを、スケール等分散およびローカルスケール不変性の以前に開発された方法と比較します。 MNISTスケールのデータセットと、教師あり学習設定のSTL-10データセットの最新の結果を示します。
The effectiveness of Convolutional Neural Networks (CNNs) has been substantially attributed to their built-in property of translation equivariance. However, CNNs do not have embedded mechanisms to handle other types of transformations. In this work, we pay attention to scale changes, which regularly appear in various tasks due to the changing distances between the objects and the camera. First, we introduce the general theory for building scale-equivariant convolutional networks with steerable filters. We develop scale-convolution and generalize other common blocks to be scale-equivariant. We demonstrate the computational efficiency and numerical stability of the proposed method. We compare the proposed models to the previously developed methods for scale equivariance and local scale invariance. We demonstrate state-of-the-art results on MNIST-scale dataset and on STL-10 dataset in the supervised learning setting.