ボックス監視インスタンス セグメンテーションは、コストのかかるマスクやポリゴン アノテーションの代わりに、単純なボックス アノテーションのみを必要とするため、大きな注目を集めています。ただし、既存のボックス監視インスタンス セグメンテーション モデルは、主にマスクベースのフレームワークに焦点を当てています。私たちは、BoxSnake と呼ばれる新しいエンドツーエンドのトレーニング手法を提案し、ボックス アノテーションのみを使用して効果的なポリゴン インスタンス セグメンテーションを初めて実現します。私たちの方法は 2 つの損失関数で構成されます。(1) 粗粒度のセグメンテーションを実現するために予測ポリゴンの境界ボックスを制約するポイントベースの単項損失。 (2) 予測されたポリゴンがオブジェクトの境界に適合するよう促す、距離を考慮したペアワイズ損失。マスクベースの弱教師あり手法と比較して、BoxSnake は予測セグメンテーションとバウンディング ボックス間のパフォーマンス ギャップをさらに縮小し、Cityscapes データセットで大幅な優位性を示します。コードは公開されています。
Box-supervised instance segmentation has gained much attention as it requires only simple box annotations instead of costly mask or polygon annotations. However, existing box-supervised instance segmentation models mainly focus on mask-based frameworks. We propose a new end-to-end training technique, termed BoxSnake, to achieve effective polygonal instance segmentation using only box annotations for the first time. Our method consists of two loss functions: (1) a point-based unary loss that constrains the bounding box of predicted polygons to achieve coarse-grained segmentation; and (2) a distance-aware pairwise loss that encourages the predicted polygons to fit the object boundaries. Compared with the mask-based weakly-supervised methods, BoxSnake further reduces the performance gap between the predicted segmentation and the bounding box, and shows significant superiority on the Cityscapes dataset. The code has been available publicly.