弱い監視下のインスタンスセグメンテーションは、イメージレベルのラベルのみを指定して、オブジェクトインスタンスを正確に検出およびセグメント化することを目的としています。複数のオフラインステージで構成されるこれまでの方法とは異なり、画像レベルのラベルをピクセル単位のラベルに粗から細まで順次変換する順次ラベル伝播および拡張ネットワーク(Label-PEnetと呼ばれる)を提案します。同じバックボーンを共有することで順次実装される、マルチラベル分類、オブジェクト検出、インスタンス調整、インスタンスセグメンテーションを含む4つのカスケードモジュールを設計します。カスケードパイプラインは、高レベルの画像から低レベルのピクセルまでラベルを次第に精度を高めながら一般化するカリキュラム学習戦略で代替的にトレーニングされます。さらに、提案のキャリブレーションモジュールを設計して、分類ネットワークがオブジェクトパーツを識別するキーピクセルを見つける能力を調査します。これは、逆の順序で実行される検証後の戦略として機能します。標準ベンチマークであるPASCAL VOC 2007および2012のマイニングインスタンスマスクでのLabel-PEnetの効率を評価します。実験結果は、Label-PEnetが明確なマージンで最先端のアルゴリズムよりも優れており、同等のパフォーマンスが得られることを示しています完全に監視されたアプローチで。
Weakly-supervised instance segmentation aims to detect and segment object instances precisely, given imagelevel labels only. Unlike previous methods which are composed of multiple offline stages, we propose Sequential Label Propagation and Enhancement Networks (referred as Label-PEnet) that progressively transform image-level labels to pixel-wise labels in a coarse-to-fine manner. We design four cascaded modules including multi-label classification, object detection, instance refinement and instance segmentation, which are implemented sequentially by sharing the same backbone. The cascaded pipeline is trained alternatively with a curriculum learning strategy that generalizes labels from high-level images to low-level pixels gradually with increasing accuracy. In addition, we design a proposal calibration module to explore the ability of classification networks to find key pixels that identify object parts, which serves as a post validation strategy running in the inverse order. We evaluate the efficiency of our Label-PEnet in mining instance masks on standard benchmarks: PASCAL VOC 2007 and 2012. Experimental results show that Label-PEnet outperforms the state-of-the-art algorithms by a clear margin, and obtains comparable performance even with the fully-supervised approaches.