Specialize and Fuse: Pyramidal Output Representation for Semantic Segmentation
セマンティックセグメンテーションの「特殊化と融合」プロセスとの節約を確実にするために、新しいピラミッド型の出力表現を提示します。ピラミッド型の「出力」表現は、粗いレベルから細かいレベルで構成され、各レベルは異なるクラス分布に「特化」されます(たとえば、粗いレベルのクラスよりも多くのもの)。 2種類のピラミッド出力(つまり、ユニティピラミッドとセマンティックピラミッド)が最終的なセマンティック出力に「融合」されます。ここで、ユニティピラミッドはユニティセルを示します(つまり、そのようなセル内のすべてのピクセルが同じセマンティックラベルを共有します)。このプロセスは、最終的なセマンティック出力を構築するために、ユニティセル(たとえば、草の大きなセル)の比較的少数のラベルを予測することにより、節約を保証します。 「出力」表現に加えて、さまざまなレベルからの「機能」表現を集約するために、粗いものから細かいものへのコンテキストモジュールを設計します。包括的なアブレーション研究を通じて、メソッドの各主要モジュールの有効性を検証します。最後に、私たちのアプローチは、広く使用されている3つのセマンティックセグメンテーションデータセット(ADE20K、COCO-Stuff、Pascal-Context)で最先端のパフォーマンスを実現します。
We present a novel pyramidal output representation to ensure parsimony with our "specialize and fuse" process for semantic segmentation. A pyramidal "output" representation consists of coarse-to-fine levels, where each level is "specialize" in a different class distribution (e.g., more stuff than things classes at coarser levels). Two types of pyramidal outputs (i.e., unity and semantic pyramid) are "fused" into the final semantic output, where the unity pyramid indicates unity-cells (i.e., all pixels in such cell share the same semantic label). The process ensures parsimony by predicting a relatively small number of labels for unity-cells (e.g., a large cell of grass) to build the final semantic output. In addition to the "output" representation, we design a coarse-to-fine contextual module to aggregate the "features" representation from different levels. We validate the effectiveness of each key module in our method through comprehensive ablation studies. Finally, our approach achieves state-of-the-art performance on three widely-used semantic segmentation datasets -- ADE20K, COCO-Stuff, and Pascal-Context.
