コンテキストはセマンティックセグメンテーションに不可欠です。オブジェクトの多様な形状と、さまざまなシーン画像の複雑なレイアウトにより、異なるオブジェクトのコンテキストの空間スケールと形状には非常に大きなばらつきがあります。したがって、事前定義された固定領域からさまざまなコンテキスト情報を集約することは、効果的または非効率的です。この作業では、各ピクセルのスケールおよび形状が変化するセマンティックマスクを生成して、そのコンテキスト領域を制限することを提案します。この目的のために、最初にペアの意味的相関を推測し、それに基づいて形状マスクを生成する新しいペアの畳み込みを提案します。推測されたコンテキスト領域の空間的範囲を使用して、形状変化たたみ込みを提案します。受容体は、入力の外観によって変化する形状マスクによって制御されます。このようにして、提案されたネットワークは、事前定義された固定領域ではなく、セマンティック相関領域からピクセルのコンテキスト情報を集約します。さらに、この作業では、ノイズのある低レベルの特徴によって引き起こされる誤った予測を減らすために、ラベル付けノイズ除去モデルも提案しています。ベルとホイッスルがなければ、提案されたセグメンテーションネットワークは、6つのパブリックセグメンテーションデータセットで一貫して新しい最先端の技術を実現します。
Context is essential for semantic segmentation. Due to the diverse shapes of objects and their complex layout in various scene images, the spatial scales and shapes of contexts for different objects have very large variation. It is thus ineffective or inefficient to aggregate various context information from a predefined fixed region. In this work, we propose to generate a scale- and shape-variant semantic mask for each pixel to confine its contextual region. To this end, we first propose a novel paired convolution to infer the semantic correlation of the pair and based on that to generate a shape mask. Using the inferred spatial scope of the contextual region, we propose a shape-variant convolution, of which the receptive field is controlled by the shape mask that varies with the appearance of input. In this way, the proposed network aggregates the context information of a pixel from its semantic-correlated region instead of a predefined fixed region. Furthermore, this work also proposes a labeling denoising model to reduce wrong predictions caused by the noisy low-level features. Without bells and whistles, the proposed segmentation network achieves new state-of-the-arts consistently on the six public segmentation datasets.