Spatially-Adaptive Filter Units for Compact and Efficient Deep Neural Networks
 畳み込みニューラルネットワークは、多くのコンピュータービジョンタスクに優れています。それらの最も重要なアーキテクチャ要素の1つは、特定のタスクに対応するために手動で設定する必要がある有効な受容フィールドサイズです。標準ソリューションには、大きなカーネル、ダウン/アップサンプリング、および拡張畳み込みが含まれます。これらは、さまざまな膨張およびダウン/アップサンプリング係数をテストする必要があり、結果として非コンパクトな表現と過剰な数のパラメーターが生じます。この問題に対処するには、Displaced Aggregation Unit(DAU)で構成される新しい畳み込みフィルターを提案します。 DAUは空間変位を学習し、個々のコンボリューションフィルターの受容フィールドサイズを特定の問題に適合させるため、手作りの修正の必要性を排除します。 DAUは、AlexNet、ResNet50、ResNet101、DeepLab、およびSRN-DeblurNetでデモンストレーションする既存の最先端アーキテクチャの畳み込みフィルターをシームレスに置き換えます。この設計の利点は、画像分類(ILSVRC 2012)、セマンティックセグメンテーション(PASCAL VOC 2011、Cityscape)、ブラインド画像のボケ除去(GOPRO)など、さまざまなコンピュータービジョンタスクおよびデータセットで実証されています。結果は、DAUがパラメータを効率的に割り当て、その結果、同等またはそれ以上のパフォーマンスで最大4倍のコンパクトなネットワークが得られることを示しています。
Convolutional neural networks excel in a number of computer vision tasks. One of their most crucial architectural elements is the effective receptive field size, that has to be manually set to accommodate a specific task. Standard solutions involve large kernels, down/up-sampling and dilated convolutions. These require testing a variety of dilation and down/up-sampling factors and result in non-compact representations and excessive number of parameters. We address this issue by proposing a new convolution filter composed of displaced aggregation units (DAU). DAUs learn spatial displacements and adapt the receptive field sizes of individual convolution filters to a given problem, thus eliminating the need for hand-crafted modifications. DAUs provide a seamless substitution of convolutional filters in existing state-of-the-art architectures, which we demonstrate on AlexNet, ResNet50, ResNet101, DeepLab and SRN-DeblurNet. The benefits of this design are demonstrated on a variety of computer vision tasks and datasets, such as image classification (ILSVRC 2012), semantic segmentation (PASCAL VOC 2011, Cityscape) and blind image de-blurring (GOPRO). Results show that DAUs efficiently allocate parameters resulting in up to four times more compact networks at similar or better performance.
updated: Thu Feb 06 2020 18:11:44 GMT+0000 (UTC)
published: Wed Feb 20 2019 09:49:55 GMT+0000 (UTC)
