arXiv reaDer
セマンティックセグメンテーションに必要なのは、ピクセルごとの分類だけではありません。
Per-Pixel Classification is Not All You Need for Semantic Segmentation
最新のアプローチでは、通常、セマンティックセグメンテーションをピクセルごとの分類タスクとして定式化しますが、インスタンスレベルのセグメンテーションは代替のマスク分類で処理されます。私たちの重要な洞察:マスク分類は、まったく同じモデル、損失、およびトレーニング手順を使用して、セマンティックレベルとインスタンスレベルの両方のセグメンテーションタスクを統一された方法で解決するのに十分一般的です。この観察に続いて、MaskFormerを提案します。これは、それぞれが単一のグローバルクラスラベル予測に関連付けられたバイナリマスクのセットを予測する単純なマスク分類モデルです。全体として、提案されたマスク分類ベースの方法は、セマンティックおよびパノラマセグメンテーションタスクへの効果的なアプローチの展望を簡素化し、優れた経験的結果を示しています。特に、クラスの数が多い場合、MaskFormerはピクセルごとの分類ベースラインよりも優れていることがわかります。私たちのマスク分類ベースの方法は、現在の最先端のセマンティクス(ADE20Kで55.6 mIoU)モデルとパノプティコンセグメンテーション(COCOで52.7 PQ)モデルの両方を上回っています。
Modern approaches typically formulate semantic segmentation as a per-pixel classification task, while instance-level segmentation is handled with an alternative mask classification. Our key insight: mask classification is sufficiently general to solve both semantic- and instance-level segmentation tasks in a unified manner using the exact same model, loss, and training procedure. Following this observation, we propose MaskFormer, a simple mask classification model which predicts a set of binary masks, each associated with a single global class label prediction. Overall, the proposed mask classification-based method simplifies the landscape of effective approaches to semantic and panoptic segmentation tasks and shows excellent empirical results. In particular, we observe that MaskFormer outperforms per-pixel classification baselines when the number of classes is large. Our mask classification-based method outperforms both current state-of-the-art semantic (55.6 mIoU on ADE20K) and panoptic segmentation (52.7 PQ on COCO) models.
updated: Sun Oct 31 2021 17:41:44 GMT+0000 (UTC)
published: Tue Jul 13 2021 17:59:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト