深さ方向の畳み込みは、現代の効率的なConvNetでますます人気が高まっていますが、そのカーネルサイズはしばしば見落とされています。このホワイトペーパーでは、さまざまなカーネルサイズの影響を体系的に研究し、複数のカーネルサイズの利点を組み合わせると、精度と効率が向上することを観察します。この観察に基づいて、新しい混合深さ畳み込み(MixConv)を提案します。これは、単一の畳み込みで複数のカーネルサイズを自然に混ぜ合わせます。バニラの深さ方向の畳み込みの簡単なドロップイン置換として、MixConvはImageNet分類とCOCOオブジェクト検出の両方で既存のMobileNetの精度と効率を改善します。 MixConvの有効性を実証するために、これをAutoMLサーチスペースに統合し、MixNetsという名前の新しいモデルファミリを開発します。これは、MobileNetV2 [20](ImageNetトップ1精度+4.2%)、ShuffleNetV2 [16 ](+3.5%)、MnasNet [26](+1.3%)、ProxylessNAS [2](+2.2%)、FBNet [27](+ 2.0%)。特に、当社のMixNet-Lは、一般的なモバイル設定(600M FLOPS未満)で、最新の78.9%ImageNetトップ1の精度を実現しています。コードはhttps://github.com/ tensorflow / tpu / tree / master / models / official / mnasnet / mixnetにあります
Depthwise convolution is becoming increasingly popular in modern efficient ConvNets, but its kernel size is often overlooked. In this paper, we systematically study the impact of different kernel sizes, and observe that combining the benefits of multiple kernel sizes can lead to better accuracy and efficiency. Based on this observation, we propose a new mixed depthwise convolution (MixConv), which naturally mixes up multiple kernel sizes in a single convolution. As a simple drop-in replacement of vanilla depthwise convolution, our MixConv improves the accuracy and efficiency for existing MobileNets on both ImageNet classification and COCO object detection. To demonstrate the effectiveness of MixConv, we integrate it into AutoML search space and develop a new family of models, named as MixNets, which outperform previous mobile models including MobileNetV2 [20] (ImageNet top-1 accuracy +4.2%), ShuffleNetV2 [16] (+3.5%), MnasNet [26] (+1.3%), ProxylessNAS [2] (+2.2%), and FBNet [27] (+2.0%). In particular, our MixNet-L achieves a new state-of-the-art 78.9% ImageNet top-1 accuracy under typical mobile settings (<600M FLOPS). Code is at https://github.com/ tensorflow/tpu/tree/master/models/official/mnasnet/mixnet