Gaussian Dynamic Convolution for Efficient Single-Image Segmentation
インタラクティブな単一画像セグメンテーションは、科学的および商用の画像ソフトウェアに遍在しています。この作業では、落書きなどの一部のシードのみを使用した単一画像セグメンテーションの問題に焦点を当てます。人間の視覚系の動的受容野に触発されて、ニューラルネットワークのコンテキスト情報を高速かつ効率的に集約するガウス動的畳み込み(GDC)を提案します。中心的なアイデアは、ガウス分布オフセットに従って空間サンプリング領域をランダムに選択することです。当社のGDCは、軽量または複雑なセグメンテーションネットワークを構築するためのモジュールとして簡単に使用できます。提案されたGDCを採用して、典型的な単一画像セグメンテーションタスクに対処します。さらに、ガウス動的ピラミッドプーリングを構築して、一般的なセマンティックセグメンテーションにおけるその可能性と一般性を示します。実験は、GDCが、Pascal-Context、Pascal-VOC 2012、Cityscapesを含む3つのベンチマークセグメンテーションデータセットで他の既存の畳み込みよりも優れていることを示しています。 GDCが他の畳み込みと比較して、より豊かで鮮やかな機能を生成できることを示すために、追加の実験も行われます。一般に、GDCは、畳み込みニューラルネットワークを助長して、画像の全体的な印象を形成します。
Interactive single-image segmentation is ubiquitous in the scientific and commercial imaging software. In this work, we focus on the single-image segmentation problem only with some seeds such as scribbles. Inspired by the dynamic receptive field in the human being's visual system, we propose the Gaussian dynamic convolution (GDC) to fast and efficiently aggregate the contextual information for neural networks. The core idea is randomly selecting the spatial sampling area according to the Gaussian distribution offsets. Our GDC can be easily used as a module to build lightweight or complex segmentation networks. We adopt the proposed GDC to address the typical single-image segmentation tasks. Furthermore, we also build a Gaussian dynamic pyramid Pooling to show its potential and generality in common semantic segmentation. Experiments demonstrate that the GDC outperforms other existing convolutions on three benchmark segmentation datasets including Pascal-Context, Pascal-VOC 2012, and Cityscapes. Additional experiments are also conducted to illustrate that the GDC can produce richer and more vivid features compared with other convolutions. In general, our GDC is conducive to the convolutional neural networks to form an overall impression of the image.
updated: Sun May 23 2021 11:28:04 GMT+0000 (UTC)
published: Sun Apr 18 2021 09:20:55 GMT+0000 (UTC)
