シーンの解析は、セマンティックカテゴリの1つをシーン画像の各ピクセルに割り当てることを目的としているため、困難です。したがって、シーンレベルの解析にはピクセルレベルの特徴が必要です。ただし、分類ネットワークは差別的な部分によって支配されるため、分類ネットワークをシーン解析に直接適用すると、1つのインスタンス内および同じカテゴリのインスタンス間で一貫性のない解析予測が行われます。この問題に対処するために、ピクセルレベルのコンセンサス特徴を学習する2つの変換ユニットを提案します。 1つは、同じインスタンス内の特徴を集約することにより、インスタンスレベルのコンセンサス特徴を学習するインスタンスコンセンサス変換(ICT)ユニットです。もう1つは、カテゴリコンセンサス変換(CCT)ユニットで、シーンイメージ内の同じカテゴリのインスタンス間で特徴のコンセンサスを維持することにより、カテゴリレベルのコンセンサス特徴を追求します。提案されているICTおよびCCTユニットは、軽量でデータ駆動型であり、エンドツーエンドのトレーニングが可能です。 2つのユニットで学習された特徴は、インスタンスレベルとカテゴリレベルの両方で一貫性があります。さらに、提案されたICTおよびCCTユニットに基づいたコンセンサスフィーチャネットワーク(CFNet)を提示し、広範なアブレーション実験を実行することにより、本方法の各コンポーネントの有効性を示します。最後に、提案されたCFNetは、Cityscapes、Pascal Context、CamVid、COCO Stuffを含む4つのデータセットで競争力のあるパフォーマンスを達成します。
Scene parsing is challenging as it aims to assign one of the semantic categories to each pixel in scene images. Thus, pixel-level features are desired for scene parsing. However, classification networks are dominated by the discriminative portion, so directly applying classification networks to scene parsing will result in inconsistent parsing predictions within one instance and among instances of the same category. To address this problem, we propose two transform units to learn pixel-level consensus features. One is an Instance Consensus Transform (ICT) unit to learn the instance-level consensus features by aggregating features within the same instance. The other is a Category Consensus Transform (CCT) unit to pursue category-level consensus features through keeping the consensus of features among instances of the same category in scene images. The proposed ICT and CCT units are lightweight, data-driven and end-to-end trainable. The features learned by the two units are more coherent in both instance-level and category-level. Furthermore, we present the Consensus Feature Network (CFNet) based on the proposed ICT and CCT units, and demonstrate the effectiveness of each component in our method by performing extensive ablation experiments. Finally, our proposed CFNet achieves competitive performance on four datasets, including Cityscapes, Pascal Context, CamVid, and COCO Stuff.