Transformersを使用したエンドツーエンドのパノプティコンセグメンテーションの一般的なフレームワークであるPanopticSegFormerを紹介します。提案された方法は、物と物の両方の統一されたマスク予測ワークフローで変形可能なDETRを拡張し、パノプティコンセグメンテーションパイプラインを簡潔かつ効果的にします。 ResNet-50バックボーンを使用すると、COCO test-dev分割で50.0%のPQを達成し、ベルやホイッスルなしで、以前の最先端の方法を大幅に上回ります。より強力なPVTv2-B5バックボーンを使用して、Panoptic-SegFormerは、単一スケール入力でCOCO valおよびtest-dev分割で54.1%PQおよび54.4%PQの新記録を達成します。
We present Panoptic SegFormer, a general framework for end-to-end panoptic segmentation with Transformers. The proposed method extends Deformable DETR with a unified mask prediction workflow for both things and stuff, making the panoptic segmentation pipeline concise and effective. With a ResNet-50 backbone, our method achieves 50.0% PQ on the COCO test-dev split, surpassing previous state-of-the-art methods by significant margins without bells and whistles. Using a more powerful PVTv2-B5 backbone, Panoptic-SegFormer achieves a new record of 54.1%PQ and 54.4% PQ on the COCO val and test-dev splits with single scale input.