拡張畳み込みは、標準の畳み込みニューラルネットワークの重要な変異体であり、効果的な受容野を制御し、追加の計算を導入することなくオブジェクトの大規模な分散を処理します。ただし、有効な受信フィールドを拡張畳み込みのデータに適合させることについては、文献ではあまり説明されていません。その可能性を完全に探求するために、拡張畳み込みの新しいミュータント、つまり、畳み込みが異なる軸、チャネル、およびレイヤー間で独立した拡張を持つ開始(拡張)畳み込みを提案しました。複雑な開始畳み込みをデータに適合させるための実用的な方法を探求するために、統計的最適化に基づく単純で効果的な膨張探索アルゴリズム(EDO)が開発されています。検索方法はゼロコストで動作し、大規模なデータセットに適用するのに非常に高速です。経験的な結果は、私たちの方法が広範囲のベンチマークで一貫したパフォーマンスの向上を得るということを明らかにしています。たとえば、ResNet-50バックボーンの3 x 3標準畳み込みを開始畳み込みに置き換えるだけで、MS-COCO上のFaster-RCNNのmAPが36.4%から39.2%に向上します。さらに、ResNet-101バックボーンで同じ置換を使用すると、ボトムアップの人間の姿勢推定のために、COCO val2017でAPスコアを60.2%から68.5%に大幅に改善できます。
Dilation convolution is a critical mutant of standard convolution neural network to control effective receptive fields and handle large scale variance of objects without introducing additional computation. However, fitting the effective reception field to data with dilated convolution is less discussed in the literature. To fully explore its potentials, we proposed a new mutant of dilated convolution, namely inception (dilated) convolution where the convolutions have independent dilation among different axes, channels and layers. To explore a practical method for fitting the complex inception convolution to the data, a simple while effective dilation search algorithm(EDO) based on statistical optimization is developed. The search method operates in a zero-cost manner which is extremely fast to apply on large scale datasets. Empirical results reveal that our method obtains consistent performance gains in an extensive range of benchmarks. For instance, by simply replace the 3 x 3 standard convolutions in ResNet-50 backbone with inception convolution, we improve the mAP of Faster-RCNN on MS-COCO from 36.4% to 39.2%. Furthermore, using the same replacement in ResNet-101 backbone, we achieve a huge improvement over AP score from 60.2% to 68.5% on COCO val2017 for the bottom up human pose estimation.