Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution
自然画像では、情報はさまざまな周波数で伝達されます。通常、高い周波数は詳細にエンコードされ、低い周波数は通常グローバル構造でエンコードされます。同様に、畳み込み層の出力フィーチャマップは、異なる周波数での情報の混合として見ることもできます。この作業では、混合フィーチャマップを周波数で因数分解し、新しいオクターブコンボリューション(OctConv)操作を設計して、メモリと計算コストの両方を削減して、より低い空間解像度で空間的に「ゆっくり」変化するフィーチャマップを保存および処理します。既存のマルチスケール手法とは異なり、OctConvは、ネットワークアーキテクチャを調整することなく(バニラ)畳み込みの直接置換として使用できる単一の汎用プラグアンドプレイ畳み込みユニットとして定式化されます。また、より良いトポロジを提案する方法や、グループまたは深さ方向の畳み込みのようなチャネルごとの冗長性を減らす方法に直交し、補完的です。たたみ込みをOctConvに置き換えるだけで、メモリと計算コストを削減しながら、画像とビデオの両方の認識タスクの精度を一貫して向上できることを実験的に示しています。 OctConvを搭載したResNet-152は、わずか22.2 GFLOPでImageNet上で82.9%のトップ1分類精度を達成できます。
In natural images, information is conveyed at different frequencies where higher frequencies are usually encoded with fine details and lower frequencies are usually encoded with global structures. Similarly, the output feature maps of a convolution layer can also be seen as a mixture of information at different frequencies. In this work, we propose to factorize the mixed feature maps by their frequencies, and design a novel Octave Convolution (OctConv) operation to store and process feature maps that vary spatially "slower" at a lower spatial resolution reducing both memory and computation cost. Unlike existing multi-scale methods, OctConv is formulated as a single, generic, plug-and-play convolutional unit that can be used as a direct replacement of (vanilla) convolutions without any adjustments in the network architecture. It is also orthogonal and complementary to methods that suggest better topologies or reduce channel-wise redundancy like group or depth-wise convolutions. We experimentally show that by simply replacing convolutions with OctConv, we can consistently boost accuracy for both image and video recognition tasks, while reducing memory and computational cost. An OctConv-equipped ResNet-152 can achieve 82.9% top-1 classification accuracy on ImageNet with merely 22.2 GFLOPs.
updated: Sun Aug 18 2019 08:21:46 GMT+0000 (UTC)
published: Wed Apr 10 2019 08:15:00 GMT+0000 (UTC)
