DiscoBox: Weakly Supervised Instance Segmentation and Semantic Correspondence from Box Supervision
バウンディングボックスの監視を使用してインスタンスのセグメンテーションとセマンティック対応を共同で学習する新しいフレームワークであるDiscoBoxを紹介します。具体的には、バウンディングボックスの監視に加えて、インスタンスのセグメンテーションとセマンティック対応が構造化された教師によって共同でガイドされる自己アンサンブルフレームワークを提案します。教師は、ボックス内およびボックス間のペアワイズピクセル関係をモデル化するために、ペアワイズポテンシャルとクロスイメージポテンシャルを組み込んだ構造化エネルギーモデルです。教師のエネルギーを最小限に抑えると、洗練されたオブジェクトマスクとクラス内オブジェクト間の密な対応が同時に得られます。これらは、タスクネットワークを監視し、密な制約学習のための正/負の対応ペアを提供する疑似ラベルとして使用されます。 2つのタスクが相互に利益をもたらす共生関係を示します。私たちの最良のモデルは、COCOインスタンスセグメンテーションで37.9%のAPを達成し、以前の弱く監視された方法を上回り、監視された方法と競合します。また、PASCAL VOC12およびPF-PASCALについて、リアルタイムの推論を使用して、最新の弱く監視された結果を取得します。
We introduce DiscoBox, a novel framework that jointly learns instance segmentation and semantic correspondence using bounding box supervision. Specifically, we propose a self-ensembling framework where instance segmentation and semantic correspondence are jointly guided by a structured teacher in addition to the bounding box supervision. The teacher is a structured energy model incorporating a pairwise potential and a cross-image potential to model the pairwise pixel relationships both within and across the boxes. Minimizing the teacher energy simultaneously yields refined object masks and dense correspondences between intra-class objects, which are taken as pseudo-labels to supervise the task network and provide positive/negative correspondence pairs for dense constrastive learning. We show a symbiotic relationship where the two tasks mutually benefit from each other. Our best model achieves 37.9% AP on COCO instance segmentation, surpassing prior weakly supervised methods and is competitive to supervised methods. We also obtain state of the art weakly supervised results on PASCAL VOC12 and PF-PASCAL with real-time inference.
updated: Sat Jun 05 2021 23:19:53 GMT+0000 (UTC)
published: Thu May 13 2021 17:59:41 GMT+0000 (UTC)
