画像レベルの注釈に基づく最近の主流の弱い教師ありセマンティック セグメンテーション (WSSS) アプローチは、主に限られた表現能力を持つバイナリ画像レベルの分類に依存しています。この論文では、SLAM (Semantic Learning based Activation Map) と名付けられた、WSSS のための新しい意味学習ベースのフレームワークを提案します。最初に、各オブジェクトカテゴリのセマンティクスを学習し、入力画像からカテゴリ固有のセマンティック埋め込みを抽出するセマンティックエンコーダを設計します。次に、フォアグラウンドとバックグラウンドのセマンティック埋め込みがセグメンテーション ネットワークに統合され、アクティベーション マップが学習されます。活性化マップの正確性、完全性、コンパクト性、および一貫性を確保するために、4 つの損失関数、つまり、カテゴリ前景、カテゴリ背景、活性化正則化、および一貫性損失が提案されています。実験結果は、セマンティック学習ベースの SLAM がバイナリ画像レベルの分類ベースのアプローチよりもはるかに優れたパフォーマンスを達成することを示しています。つまり、OC-CSE occse、PASCAL VOC データセットの CPN cpn よりも約 3% mIoU 高くなります。また、SLAM は、強力なピクセルごとの制約でトレーニングされた AMN amn と、追加のマルチモーダル知識を利用した CLIMS clims を上回ります。コードが利用可能になります。
Recent mainstream weakly-supervised semantic segmentation (WSSS) approaches based on image-level annotations mainly relies on binary image-level classification with limited representation capacity. In this paper, we propose a novel semantic learning based framework for WSSS, named SLAM (Semantic Learning based Activation Map). We firstly design a semantic encoder to learn semantics of each object category and extract category-specific semantic embeddings from an input image. The semantic embeddings of foreground and background are then integrated to a segmentation network to learn the activation map. Four loss functions, i.e, category-foreground, category-background, activation regularization, and consistency loss are proposed to ensure the correctness, completeness, compactness and consistency of the activation map. Experimental results show that our semantic learning based SLAM achieves much better performance than binary image-level classification based approaches, i.e., around 3% mIoU higher than OC-CSE occse, CPN cpn on PASCAL VOC dataset. Our SLAM also surpasses AMN amn trained with strong per-pixel constraint and CLIMS clims utilizing extra multi-modal knowledge. Code will be made available.