画像セグメンテーションの主な課題は、オブジェクトの境界を分類することです。最近の取り組みでは、境界マスクを使用してセグメンテーション結果を改良することを提案しています。ただし、モデルは、オブジェクトの輪郭を正しくキャプチャしている場合でも、境界ピクセルを誤って分類する傾向があります。このような場合、完全な境界マップでさえ、セグメンテーションの改良には役立ちません。この論文では、オブジェクトの境界などのエラーが発生しやすいピクセルに適切な事前の重みを割り当てることで、セグメンテーションの品質を大幅に向上させることができると主張します。具体的には、ピクセルヌルモデル(PNM)を提示します。これは、ランダムセグメンターによって正しく分類される確率に従って各ピクセルに重みを付ける事前モデルです。経験的分析は、PNMがさまざまな最先端(SOTA)セグメンターの誤分類分布をキャプチャすることを示しています。 3つのデータセット(Cityscapes、ADE20K、MS COCO)でのセマンティック、インスタンス、およびパノラマセグメンテーションタスクに関する広範な実験により、PNMはほとんどのSOTAメソッド(ビジョントランスフォーマーを含む)のセグメンテーション品質を一貫して改善し、境界ベースのメソッドを大幅に上回っています。 。また、広く使用されている平均IoU(mIoU)メトリックは、さまざまなシャープネスの境界に影響されないこともわかります。副産物として、境界のシャープネスを認識し、エラーが発生しやすい領域でのモデルのセグメンテーションパフォーマンスをより適切に反映する新しいメトリックPNMIoUを提案します。
A major challenge in image segmentation is classifying object boundaries. Recent efforts propose to refine the segmentation result with boundary masks. However, models are still prone to misclassifying boundary pixels even when they correctly capture the object contours. In such cases, even a perfect boundary map is unhelpful for segmentation refinement. In this paper, we argue that assigning proper prior weights to error-prone pixels such as object boundaries can significantly improve the segmentation quality. Specifically, we present the pixel null model (PNM), a prior model that weights each pixel according to its probability of being correctly classified by a random segmenter. Empirical analysis shows that PNM captures the misclassification distribution of different state-of-the-art (SOTA) segmenters. Extensive experiments on semantic, instance, and panoptic segmentation tasks over three datasets (Cityscapes, ADE20K, MS COCO) confirm that PNM consistently improves the segmentation quality of most SOTA methods (including the vision transformers) and outperforms boundary-based methods by a large margin. We also observe that the widely-used mean IoU (mIoU) metric is insensitive to boundaries of different sharpness. As a byproduct, we propose a new metric, PNM IoU, which perceives the boundary sharpness and better reflects the model segmentation performance in error-prone regions.