このホワイト ペーパーでは、共有エンコーダーを使用してセマンティック、インスタンス、パーツ セグメンテーションを生成し、それらを効果的に融合してパノプティック パーツ セグメンテーションを実現する新しいネットワークを紹介します。これら 3 つのセグメンテーションの問題を統合することで、相互に改善された一貫した表現学習が可能になります。 3 つの頭部すべての予測を効率的に融合するために、動的にロジットのバランスを取り、それらを融合してパノプティック パーツ セグメンテーションを作成する、パラメーターのない関節融合モジュールを導入します。私たちの方法は、都市景観パノプティック パーツ (CPP) およびパスカル パノプティック パーツ (PPP) データセットで評価されます。 CPP の場合、関節融合を伴う提案モデルの PartPQ は、以前の最先端技術を、パーツを含むすべての領域とセグメントでそれぞれ 1.6 および 4.7 パーセント ポイント上回っています。 PPP では、分割可能なクラスについて、PartPQ で 3.3 パーセント ポイント、PartPQ で 10.5 パーセント ポイント、以前のトップダウン マージ戦略を使用したモデルよりも、ジョイント フュージョンの方が優れています。
In this paper, we introduce a novel network that generates semantic, instance, and part segmentation using a shared encoder and effectively fuses them to achieve panoptic-part segmentation. Unifying these three segmentation problems allows for mutually improved and consistent representation learning. To fuse the predictions of all three heads efficiently, we introduce a parameter-free joint fusion module that dynamically balances the logits and fuses them to create panoptic-part segmentation. Our method is evaluated on the Cityscapes Panoptic Parts (CPP) and Pascal Panoptic Parts (PPP) datasets. For CPP, the PartPQ of our proposed model with joint fusion surpasses the previous state-of-the-art by 1.6 and 4.7 percentage points for all areas and segments with parts, respectively. On PPP, our joint fusion outperforms a model using the previous top-down merging strategy by 3.3 percentage points in PartPQ and 10.5 percentage points in PartPQ for partitionable classes.