我々は、パノプティックセグメンテーション(PS)というタスクを提案し、研究している。パノプティックセグメンテーションは、セマンティックセグメンテーション(各ピクセルにクラスラベルを割り当てる)とインスタンスセグメンテーション(各オブジェクトインスタンスを検出してセグメント化する)という、一般的に異なるタスクを統合するものである。提案されたタスクは、リッチで完全な首尾一貫したシーンセグメンテーションを生成する必要があり、これは実世界のビジョンシステムに向けた重要なステップである。コンピュータビジョンの初期の研究では、関連する画像/シーンの解析タスクに取り組んできたが、適切なメトリクスの欠如や関連する認識の課題などの理由から、現在ではあまり普及していない。この問題を解決するために、すべてのクラス(stuffとthings)に対する性能を解釈可能で統一された方法で捉える新しいパノプティック品質(PQ)メトリクスを提案する。提案された指標を用いて、既存の3つのデータセットを用いて、人間と機械の両方のPSの性能を厳密に研究し、このタスクについての興味深い洞察を明らかにする。本研究の目的は、画像のセグメンテーションをより統一的に捉えることへのコミュニティの関心を復活させることである。
We propose and study a task we name panoptic segmentation (PS). Panoptic segmentation unifies the typically distinct tasks of semantic segmentation (assign a class label to each pixel) and instance segmentation (detect and segment each object instance). The proposed task requires generating a coherent scene segmentation that is rich and complete, an important step toward real-world vision systems. While early work in computer vision addressed related image/scene parsing tasks, these are not currently popular, possibly due to lack of appropriate metrics or associated recognition challenges. To address this, we propose a novel panoptic quality (PQ) metric that captures performance for all classes (stuff and things) in an interpretable and unified manner. Using the proposed metric, we perform a rigorous study of both human and machine performance for PS on three existing datasets, revealing interesting insights about the task. The aim of our work is to revive the interest of the community in a more unified view of image segmentation.