この論文では、セマンティックセグメンテーションの新しいパラダイムである構造トークン(StructToken)を紹介します。ピクセルごとの分類としてのセマンティックセグメンテーションの観点から、以前の深層学習ベースの方法は、最初にエンコーダーとデコーダーヘッドを介してピクセルごとの表現を学習し、次に各ピクセル表現を特定のカテゴリに分類してセマンティックマスクを取得します。これとは異なり、ピクセルごとの分類なしでセマンティックマスクを直接予測する前に、構造情報を取得する構造認識アルゴリズムを提案します。具体的には、入力画像が与えられると、学習可能な構造トークンが画像表現と相互作用して、最終的なセマンティックマスクを推論します。 3つの相互作用アプローチが検討され、その結果は最先端の方法よりも優れているだけでなく、より多くの構造情報も含まれています。実験は、ADE20k、Cityscapes、COCO-Stuff10Kを含む3つの広く使用されているデータセットで実施されます。構造トークンがセマンティックセグメンテーションの代替として役立ち、将来の研究を刺激することを願っています。
In this paper, we present structure token (StructToken), a new paradigm for semantic segmentation. From a perspective on semantic segmentation as per-pixel classification, the previous deep learning-based methods learn the per-pixel representation first through an encoder and a decoder head and then classify each pixel representation to a specific category to obtain the semantic masks. Differently, we propose a structure-aware algorithm that takes structural information as prior to predict semantic masks directly without per-pixel classification. Specifically, given an input image, the learnable structure token interacts with the image representations to reason the final semantic masks. Three interaction approaches are explored and the results not only outperform the state-of-the-art methods but also contain more structural information. Experiments are conducted on three widely used datasets including ADE20k, Cityscapes, and COCO-Stuff 10K. We hope that structure token could serve as an alternative for semantic segmentation and inspire future research.