arXiv reaDer
Zero-Shot Semantic Segmentation
 セマンティックセグメンテーションモデルは、多数のオブジェクトクラスに拡張する能力が制限されています。このホワイトペーパーでは、ゼロショットセマンティックセグメンテーションの新しいタスクを紹介します。トレーニングの例がない、見たことのないオブジェクトカテゴリのピクセル単位の分類器を学習します。この目的のために、セマンティックワードの埋め込みから視覚表現を生成するアプローチと深い視覚セグメンテーションモデルを組み合わせた新しいアーキテクチャ、ZS3Netを提示します。この方法により、ZS3Netは、テスト時に見たカテゴリと見えないカテゴリの両方に直面するピクセル分類タスク(いわゆる「一般化された」ゼロショット分類)に対処します。見えないクラスからのピクセルの自動疑似ラベル付けに依存する自己学習ステップにより、パフォーマンスがさらに向上します。 2つの標準的なセグメンテーションデータセット、Pascal-VOCとPascal-Contextで、ゼロショットベンチマークを提案し、競争力のあるベースラインを設定します。 Pascal-Contextデータセットにあるような複雑なシーンの場合、グラフコンテキストエンコーディングを使用してアプローチを拡張し、クラスごとのセグメンテーションマップから得られる空間コンテキスト事前分布を完全に活用します。
Semantic segmentation models are limited in their ability to scale to large numbers of object classes. In this paper, we introduce the new task of zero-shot semantic segmentation: learning pixel-wise classifiers for never-seen object categories with zero training examples. To this end, we present a novel architecture, ZS3Net, combining a deep visual segmentation model with an approach to generate visual representations from semantic word embeddings. By this way, ZS3Net addresses pixel classification tasks where both seen and unseen categories are faced at test time (so called "generalized" zero-shot classification). Performance is further improved by a self-training step that relies on automatic pseudo-labeling of pixels from unseen classes. On the two standard segmentation datasets, Pascal-VOC and Pascal-Context, we propose zero-shot benchmarks and set competitive baselines. For complex scenes as ones in the Pascal-Context dataset, we extend our approach by using a graph-context encoding to fully leverage spatial context priors coming from class-wise segmentation maps.
updated: Mon Nov 18 2019 11:10:40 GMT+0000 (UTC)
published: Mon Jun 03 2019 13:53:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト