この研究では、トレーニング サンプルなしで新しいカテゴリのパノプティック セグメンテーション、インスタンス セグメンテーション、セマンティック セグメンテーションを実現するために、ユニバーサル ゼロショット セグメンテーションを研究します。このようなゼロショット セグメンテーション能力は、意味論的空間におけるクラス間の関係に依存して、目に見えるカテゴリから学習した視覚的な知識を目に見えないカテゴリに転送します。したがって、意味論的空間と視覚的空間をうまく橋渡しし、意味論的関係を視覚特徴学習に適用することが望ましい。私たちは、目に見えないカテゴリーの特徴を合成するための生成モデルを導入します。これは、意味論的空間と視覚的空間を結び付けるだけでなく、目に見えないトレーニング データの欠如の問題にも対処します。さらに、意味空間と視覚空間の間のドメインギャップを軽減するために、まず、学習されたプリミティブを使用してバニラジェネレーターを強化します。各プリミティブにはカテゴリに関連するきめの細かい属性が含まれており、これらのプリミティブを選択的に組み立てることによって目に見えない特徴を合成します。第二に、視覚的特徴を意味論的関連部分と、有用な視覚的分類の手がかりを含むが意味論的表現との関連性が低い意味論的非関連部分に分解することを提案します。次に、意味論に関連する視覚特徴のクラス間関係を意味空間内の関係と一致させる必要があり、それによって意味論的な知識が視覚特徴の学習に移されます。提案されたアプローチは、ゼロショット パノプティック セグメンテーション、インスタンス セグメンテーション、およびセマンティック セグメンテーションにおいて、驚くべき最先端のパフォーマンスを達成します。コードは https://henghuiding.github.io/PADing/ で入手できます。
We study universal zero-shot segmentation in this work to achieve panoptic, instance, and semantic segmentation for novel categories without any training samples. Such zero-shot segmentation ability relies on inter-class relationships in semantic space to transfer the visual knowledge learned from seen categories to unseen ones. Thus, it is desired to well bridge semantic-visual spaces and apply the semantic relationships to visual feature learning. We introduce a generative model to synthesize features for unseen categories, which links semantic and visual spaces as well as addresses the issue of lack of unseen training data. Furthermore, to mitigate the domain gap between semantic and visual spaces, firstly, we enhance the vanilla generator with learned primitives, each of which contains fine-grained attributes related to categories, and synthesize unseen features by selectively assembling these primitives. Secondly, we propose to disentangle the visual feature into the semantic-related part and the semantic-unrelated part that contains useful visual classification clues but is less relevant to semantic representation. The inter-class relationships of semantic-related visual features are then required to be aligned with those in semantic space, thereby transferring semantic knowledge to visual feature learning. The proposed approach achieves impressively state-of-the-art performance on zero-shot panoptic segmentation, instance segmentation, and semantic segmentation. Code is available at https://henghuiding.github.io/PADing/.