フレンドリーなアノテーションと満足のいくパフォーマンスの利点のおかげで、弱い教師ありセマンティック セグメンテーション (WSSS) アプローチが広く研究されています。最近、単一段階の WSSS が目覚め、多段階の WSSS における高価な計算コストと複雑なトレーニング手順の問題が軽減されました。しかし、このような未熟なモデルの結果には、背景の不完全性とオブジェクトの不完全性の問題があります。経験的に、それらはそれぞれグローバルオブジェクトコンテキストの不十分さとローカルな地域コンテンツの欠如によって引き起こされることがわかりました.これらの観察の下で、隣接する機能グリッドから形成されたマルチスケールのコンテキストをキャプチャできる、弱い教師あり機能結合ネットワーク (WS-FCN) と呼ばれる、画像レベルのクラス ラベル監視のみを備えたシングル ステージ WSSS モデルを提案します。低レベルの特徴から高レベルの特徴にきめ細かい空間情報をエンコードします。具体的には、さまざまな粒状空間でグローバル オブジェクト コンテキストをキャプチャするために、柔軟なコンテキスト集約モジュールが提案されています。さらに、意味論的に一貫した機能融合モジュールが、ボトムアップのパラメーター学習可能な方法で提案され、きめ細かいローカルコンテンツが集約されます。これら 2 つのモジュールに基づいて、WS-FCN は自己管理型のエンドツーエンドのトレーニング方式にあります。困難な PASCAL VOC 2012 および MS COCO 2014 での広範な実験結果は、WS-FCN の有効性と効率を実証しており、PASCAL VOC 2012 検証セットとテスト セットで 65.02% および 64.22% の mIoU という最先端の結果を達成できます。 、MS COCO 2014 val セットでそれぞれ 34.12% mIoU。コードと重量は https://github.com/ChunyanWang1/ws-fcn で公開されています。
Thanks to the advantages of the friendly annotations and the satisfactory performance, Weakly-Supervised Semantic Segmentation (WSSS) approaches have been extensively studied. Recently, the single-stage WSSS was awakened to alleviate problems of the expensive computational costs and the complicated training procedures in multi-stage WSSS. However, results of such an immature model suffer from problems of background incompleteness and object incompleteness. We empirically find that they are caused by the insufficiency of the global object context and the lack of the local regional contents, respectively. Under these observations, we propose a single-stage WSSS model with only the image-level class label supervisions, termed as Weakly Supervised Feature Coupling Network (WS-FCN), which can capture the multi-scale context formed from the adjacent feature grids, and encode the fine-grained spatial information from the low-level features into the high-level ones. Specifically, a flexible context aggregation module is proposed to capture the global object context in different granular spaces. Besides, a semantically consistent feature fusion module is proposed in a bottom-up parameter-learnable fashion to aggregate the fine-grained local contents. Based on these two modules, WS-FCN lies in a self-supervised end-to-end training fashion. Extensive experimental results on the challenging PASCAL VOC 2012 and MS COCO 2014 demonstrate the effectiveness and efficiency of WS-FCN, which can achieve state-of-the-art results by 65.02% and 64.22% mIoU on PASCAL VOC 2012 val set and test set, 34.12% mIoU on MS COCO 2014 val set, respectively. The code and weight have been released at:https://github.com/ChunyanWang1/ws-fcn.